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内 容 所 要 


本 书 概念 清晰 、 实 例 详尽 ， 是 一 本 有 关 设 计 、 实 现 和 有 效 使 用 C 语 
言 库 函 数 ， 掌 握 创建 可 重用 C 语 言 软件 模块 技术 的 参考 指南 。 书 中 提供 
了 大 量 实 例 ， 重 在 阐述 如 何 用 一 种 与 语言 无 天 的 方法 将 接口 设计 实现 独 
立 出 来 ， 从 而 用 一 种 基于 接口 的 设计 途径 创建 可 重用 的 API。 























本 书 是 所 有 C 语 言 程序 员 不 可 多 得 的 好 书 ， 也 是 所 有 希望 掌握 可 重 
用 软件 模块 技术 的 人 员 的 理想 参考 书 ， 适 合 各 层次 的 面 癌 对 象 软件 开发 
人 员 、 系 统 分 析 员 阅读 。 


如 今 的 程序 员 忙 于 应 付 大 量 关 于 API (Application Programming 
Interface) 的 信息 。 但 是 ， 大 多 数 程序 员 都 会 在 其 所 写 的 几乎 每 一 个 应 
用 程序 中 使 用 API 并 实现 API 的 库 ， 只 有 少数 程序 员 会 创建 或 发 布 新 的 
能 广泛 应 用 的 API。 事 实 上 ， 程 序 员 似乎 更 喜欢 使 用 自己 搞 的 东西 ， 而 
不 愿意 查找 能 满足 他 们 要 求 的 程序 库 ， 这 或 许 是 因为 写 特 定 应 用 程序 的 
代码 要 比 设 计 可 广泛 使 用 的 API 容 易 。 





不 好 意思 ， 我 也 未 能 免 俗 : lcc《〈 我 和 Chris Fraser 为 ANSIISO C 编 
写 的 编译 器 ) 就 是 从 头 开 始 编写 的 API。 (在 A Retargetable C Compiler: 
Design and Implementation 一 书 中 有 关于 lcc 的 介绍 。) 编译 器 是 这 样 一 
类 应 用 程序 :可 以 使 用 标准 接口 ， 并 且 能 够 创建 在 其 他 地 方 也 可 以 使 用 
的 接口 。 这 类 程序 还 有 内 存 管理 、 字 符 串 和 符号 表 以 及 链表 操作 等 。 但 
是 lcc 仅 使 用 了 很 少 的 标准 C 库 函数 的 例 程 ， 并 且 它 的 代码 几乎 都 无 法 直 
接应 用 到 其 他 应 用 程序 中 。 





本 书 提倡 的 是 一 种 基于 接口 及 其 实现 的 设计 方法 ， 并 且 通 过 对 24 个 
接口 及 其 实现 的 描述 详细 演示 了 该 方法 。 这 些 接口 涉及 很 多 计算 机 领域 
的 知识 ， 包 括 数 据 结构 、 算 法 、 字 符 吕 处理 和 并 发 程序 。 这 些 实现 并 不 
古人 简单 的 玩具 ， 而 是 为 在 产品 级 代码 中 使 用 而 设计 的 。 实 现 的 代码 是 可 
免费 提供 的 。 











C 编 程 语言 基本 不 支持 基于 接口 的 设计 方法 ， 而 C++ 和 Modula-3 这 
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的 语言 无 关 ， 但 是 它 要 求 程序 员 对 像 C 一 样 的 语言 有 更 强 的 驾驭 能 力 和 
更 高 的 警惕 性 ， 因 为 这 类 语言 很 容易 破坏 带 有 隐 含 实现 信息 的 接口 ， 反 
之 亦 然 。 














然而 ,一旦 掌握 7 了 基于 接口 的 设计 方法 ， 就 能 够 在 服务 于 众多 应 用 
程序 的 通用 接口 基础 上 建立 应 用 程序 ， 从 而 加 快 开发 速度 。 在 一 些 
C++ 环境 中 的 基础 类 库 融 体现 了 这 种 效果 。 增 加 对 现 有 软件 〈 接 口 实现 
Fe) 的 重用 ， 能 够 降低 初始 开 及 成 本 ， 同 时 还 能 降低 维护 成 本 ， 因 为 应 
用 程序 的 更 多 部 分 都 建立 在 通用 接口 的 实现 之 上 ， 而 这 些 实现 无 不 经 过 
了 民 好 的 测试 。 














本 书 中 的 24 个 接口 引 自 几 本 参考 书 ， 并 且 针 对 本 书 特 别 做 了 修正 。 
一 些 数据 结构 (抽象 数据 类 型 ) 中 的 接口 源 于 lcc 代 码 和 20 世 纪 70 年 代 末 
到 80 年 代 初 所 做 的 Icon 编 程 语言 的 实现 代码 (参见 R. E. Griswold 和 M. T. 
Griswold 所 著 的 The Icon Programming Language ) 。 其 他 的 接口 来 自 另 
外 一 些 程 序 员 的 著作， 我 们 将 会 在 每 一 章 的 “扩展 阅读 ”部 分 给 出 详细 信 
自 
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书 中 提供 的 一 些 接口 是 针对 数据 结构 的 ， 但 本 书 不 是 介绍 数据 结构 
的 ， 本 书 的 侧重 点 在 算法 工程 (包装 数据 结构 以 供应 用 程序 使 用 ) ， 而 
不 在 数据 结构 算法 本 身 。 然 而 ， 接 口 设计 的 好 坏 总 是 取决 于 数据 结构 和 
算法 是 人 否 合 适 ， 因 此 ， 本 书 可 算是 传统 数据 结构 和 算法 教材 (如 Robert 
Sedgewick 所 著 的 Algorithms in C ) 的 有 益 补充 。 





大 多 数 音节 会 只 介绍 一 个 接口 及 其 实现 ， 少 数 章节 还 会 描述 与 其 相 
天 的 接口 。 每 一 章 的 “接口 ?部 分 将 会 单独 给 出 一 个 明确 而 详细 的 接口 描 
述 。 对 于 兴趣 仅 在 于 接口 的 程序 员 来 次， 这 些 内 容 就 相当 于 一 本 参考 手 











册 。 人 少数 音节 还 会 包含 “例子 ”部 分 ， 会 次 明 在 一 个 简单 的 应 用 程序 中 接 
口 的 用 法 。 


每 章 的 “实现 ?部 分 将 会 详细 地 介绍 本 章 接 口 的 实现 代码 。 有 些 例子 
会 给 出 一 个 接口 的 多 种 实现 方法 ， 以 展示 基于 接口 设计 的 优点 。 这 些 内 
容 对 于 修改 或 扩展 一 个 接口 或 是 设计 一 个 相关 的 接口 将 大 有 人 神 益 。 许 多 
练习 题 会 进一步 探 完 一 些 其 他 可 行 的 设计 与 实现 的 方法 。 如 果 仅 是 为 了 
理解 如 何 使 用 接口 ， 可 以 不 用 阅读 “实现 ”一 节 。 

















接口 、 示 例 和 实现 都 以 文学 〈literate) 程序 的 方式 给 出 ， 换 句 话 
说 ， 源 代码 及 其 解释 是 按照 最 适合 理解 代码 的 顺序 交织 出 现 的 。 代 码 可 
以 自动 地 从 本 书 的 文本 文件 中 抽取 ， 并 按 C 语 言 所 规定 的 顺序 组 合 起 
来 。 其 他 也 用 文学 程序 讲解 C 语 言 的 图 书 有 A Retargetable C Compiler 和 
D. E. Knuth 写 的 The Stanford GraphBase: A Platform for Combinatorial 
Computing 。 


本 书 淋 构 
本 书 材料 可 分 成 下 面 的 几 大 类 ; 
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线程 20. 线程 





建议 大 多 数 读者 通读 第 1 章 至 第 4 章 的 内 容 ， 因 为 这 几 章 形成 了 本 书 
余部 分 的 框架 。 对 于 第 5 章 至 第 20 章 ， 虽 然 某 些 章 会 参考 其 前 面 的 内 
， 但 影响 不 大 ， 读 者 可 以 按 任何 顺序 阅读 。 











Jk 
容 


第 1 章 介 绍 了 文学 程序 设计 和 编程 风格 与 效率 。 第 2 章 提 出 并 描述 了 
基于 接口 的 设计 方法 ， 定 义 了 相关 的 术语 ， 并 演示 了 两 个 简单 的 接口 及 
其 实现 。 第 3 章 描 述 了 Atom 接 口 的 实现 原型 ， 这 是 本 书 中 最 简单 的 具有 
产品 质量 的 接口 。 第 4 章 介 绍 了 在 每 一 个 接口 中 都 会 用 到 的 弄 帝 与 断 
言 。 第 5 章 和 第 6 章 描 述 了 几乎 所 有 的 实现 都 会 用 到 的 内 存 管理 接口 。 其 
余 各 草 都 分别 措 述 了 一 个 接口 及 其 实现 。 


教学 使 用 建议 


我 们 假设 本 书 的 读者 已 经 在 大 学 介绍 性 的 编程 诬 程 中 了 解 了 C 语 
言 ， 并 且 都 实际 了 解 了 类 似 《C 算 法 》 一 书 中 给 出 的 基本 数据 结构 。 在 
普林斯顿 ， 本 书 是 大 学 二 年 级 学 生 到 研究 生 一 年 级 的 系统 编程 谍 程 的 教 
材 。 许 多 接口 使 用 的 都 是 高 级 C 语 言 编程 技巧 ， 比 如 说 不 透明 的 指针 和 























指 癌 指针 的 指针 等 ， 因 此 这 些 接口 都 是 学 习 这 些 内 容 非常 好 的 实例 ， 对 
于 系统 编程 和 数据 结构 课程 非常 有 用 。 








这 本 书 可 以 以 多 种 方式 在 诬 誉 上 使 用 ， 最 简单 的 就 是 用 在 面向 项 目 
的 读 程 中 。 例 如 ， 在 编译 原理 课程 中 ， 学 生 通 闻 需 要 为 一 个 玩具 语言 纺 
写 一 个 编译 融 。 在 图 形 学 诬 程 中 同样 也 经 常 有 一 些 实际 的 项 目 。 本 书 中 
许多 接口 消除 了 新 建 项 目 所 需要 的 一 些 令 人 厌烦 的 编程 工作 ， 从 而 简化 
了 这 类 课程 中 的 项 目 。 这 种 用 法 可 以 帮助 学 生 认识 到 在 项 目 中 重用 代码 
可 以 市 省 大 量 劳 动 ， 并 且 引 导 学 生 在 其 项 目 中 对 自己 所 做 的 部 分 尝试 使 
用 基于 接口 的 设计 。 后 者 在 团队 项 目 中 特别 有 用 ， 因 为 “现实 世界 ”中 的 
项 目 通常 都 是 团队 项 目 。 




















普林斯顿 大 学 二 年 级 系统 编程 谍 程 的 主要 内 容 是 接口 与 实现 ， 其 谍 
外 作业 要 求学 生成 为 接口 的 用 户 、 实 现 者 和 设计 者 。 例 如 其 中 的 一 个 作 
业 是 这 样 的 ， 我 给 出 了 8.1 节 中 描述 的 Table 接 口 、 它 的 实现 的 目标 代码 
以 及 8.2 节 中 描述 的 单词 频率 程序 wf 的 说 明 ， 让 学 生 只 使 用 我 们 为 Table 
设计 的 目标 代码 来 实现 wf。 在 下 一 个 作业 中 ，wf 的 目标 代码 就 有 了 ， 他 
们 必须 实现 Table。 有 时 我 会 题 倒 这 些 作业 的 顺序 ， 但 是 这 两 种 顺序 对 
大 部 分 学 生来 说 痢 是 很 新 闲 的 。 他 们 不 习惯 在 大 部 分 程序 中 只 使 用 目标 
代码 ， 并 且 这 些 作业 通常 都 是 他 们 第 一 次 接触 到 在 接口 和 程序 说 明 中 使 
用 半 正 式 表示 法 。 














最 初 布 咎 的 作业 也 介绍 了 作为 接口 说 明 必 要 组 成 部 分 的 可 检查 的 运 
行 时 错误 和 断言 。 同 样 ， 只 有 做 过 几 次 这 样 的 作业 之 后 ， 学 生 们 才 开 始 
理解 这 些 概念 的 意义 。 我 禁止 了 突 发 性 骨 恋 ， 即 不 是 由 断言 错误 的 诊断 
所 宣布 的 朋 涡 。 运 行 朋 泪 的 程序 将 被 判 为 零 分 ， 这 样 做 似乎 过 于 苛刻 ， 
但 是 它 能 够 引起 学 生 们 的 注意 ， 而 且 也 能 够 让 学 生理 解 安全 语言 的 好 
处 ， 例 如 ML 和 Modula-3， 在 这 些 语言 中 ， 不 会 出 现 突 发 性 骨 溃 。 OX 


种 评分 方法 实际 上 没有 那么 苛刻 ， 因 为 在 分 成 多 个 部 分 的 作业 中 ， 只 有 
产生 冲突 的 那 部 分 作业 才 会 判 为 错误 ， 而 且 不 同 的 作业 权重 也 不 同 。 我 
给 过 许多 0 分 ， 但 是 从 来 没有 因此 导致 任何 一 个 学 生 的 课程 总 成 绩 降 低 
De ) 





一 旦 学 生 们 有 了 自己 的 几 个 接口 后 ， 接 下 来 就 让 他 们 设计 新 的 接口 
并 沿用 以 前 的 设计 选择 。 例 如 ，Andrew Appel 最 喜欢 的 一 个 作业 是 一 个 
原始 的 测试 程序 。 学 生 们 以 组 为 单位 设计 一 个 作业 需要 的 任意 算术 精度 
的 接口 ， 作 籽 的 结果 类 似 于 第 17 章 到 第 19 章 中 描述 的 接口 。 不 同 的 组 设 
计 的 接口 不 同 ， 完 成 后 对 这 些 接 口 进行 比较 ， 一 个 组 对 男 一 个 组 设计 的 
接口 进行 评价 ， 这 样 做 很 有 启迪 作用 。Kai Li 的 那个 需要 一 个 学 期 来 完 
成 的 项 目 也 达到 了 同样 的 学 习 实 践 效 果 ， 访 项目 使 用 TcyTk 系 统 〈 人 参见 
J. K. Ousterhout 所 著 的 Tcl and the Tk Toolkit ) 以 及 学 生 们 设计 和 实现 的 
编辑 程序 专用 的 接口 ， 构 建 了 一 个 基于 X 的 编辑 程序 。Tk 本 身 就 是 一 个 
很 好 的 基于 接口 的 设计 。 








在 局 级 课程 中 ， 我 通常 把 作业 打包 成 接口 ， 学 生 可 以 自行 修改 和 改 
进 ， 其 至 改变 作业 的 目标 。 给 学 生 设 铬 一 个 起 点 可 以 减少 他 们 完成 作业 
所 需 的 时 间 ， 人 允许 他 们 做 一 些 实质 性 的 修改 训 励 了 有 创造 性 的 学 生 去 探 
索 新 的 解决 办 法 。 通 常 ， 那 些 不 成 功 的 方法 比 成 功 的 方法 更 让 学 生 记 忆 
深刻 。 学 生 不 可 避免 地 会 走 错 路 ， 为 此 也 付出 了 更 多 的 开发 时 间 。 但 只 
有 当 他 们 事后 再 回 过 头 来 看 ， 才 会 了 解 所 犯 的 错误 ， 也 才 会 知道 设计 一 
个 好 的 接口 虽然 很 困难 ， 但 是 值得 付出 努力 ， 而 且 到 最 后 ， 他 们 几乎 都 
会 转 到 基于 接口 的 设计 上 来 。 


如 何 得 到 代码 





本 书 中 的 代码 已 经 在 以 下 平台 上 通过 了 测试 。 


处 理 器 操作 系统 编 译 器 
SPARC SunOS 4.1 lcc 3.5 
gcc 2.7.2 
Alpha OSF/1 3.2A lcc 4.0 
gcc 2.6.3 
cc 
MIPS R3000 IRIX 5.3 Ice 3.5 
gcc 2.6.3 
CC 
MIPS R3000 Ultrix 4.3 lcc 3.5 
gece 2.5.7 
Pentium Windows 95 Microsoft Visual C/C++ 4.0 


Windows NT 3.51 





其 中 几 个 实现 是 针对 特定 机 器 的 。 这 些 实现 假设 机 器 使 用 的 是 二 进 
制 补 码 表 示 的 整数 和 IEEE 浮 点 握 术 ， 并 且 无 符 写 的 长 整数 可 以 用 来 你 存 
对 象 指针 。 


本 书 中 所 有 的 源 代 码 在 ftp.cs.princeton.edu 的 目录 pub/packages/cii 
下 ， 匿 名 登录 就 可 以 下 载 。 使 用 ftp 客 户 端 软件 连接 到 
ftp.cs.princeton.edu, #%#!|pub/packages/ciiH 3, F#XREADME “ff, X 
件 中 说 明了 目录 的 内 容 以 及 如 何 下 载 。 








大 多 数 最 新 的 实现 通常 都 是 以 ciixy.tar.gz 或 ciixy.zip 的 文件 名 存储 
的 ， 其 中 xy 是 版 本 号 ， 例 如 10 是 指 版 本 1.0。ciixy.tar.gz 是 用 gzip 压 缩 的 
UNIX tar 文 件 ， 而 ciixy.zip 是 与 PKZIP 2.04g 版 兼容 的 ZIP 文 件 。ciixy.zip 
中 的 文件 都 是 DOS/Windows 下 的 文本 文件 ， 每 行 均 以 回 车 和 换行 符 结 
束 。ciixy.zip 同 时 也 可 以 在 美国 在 线 、CompuServe 以 及 其 他 在 线 服 务 器 
上 下 载 。 








登录 http://www.cs.princeton.edu/software/cii/ 同 样 也 可 以 得 到 相应 的 
信息 。 该 页 面 还 解释 了 如 何 报告 勘误 。 
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第 { 章 “引言 


一 个 大 程序 由 许多 小 的 模块 组 成 。 这 些 模 块 提 供 了 程序 中 使 用 的 函 
数 、 过 程 和 数据 结构 。 理 想 情 况 下 ， 这 些 模块 中 大 部 分 都 是 现成 的 并 且 
来 目 于 库 ， 只 有 那些 特定 于 现 有 应 用 程序 的 模块 需要 从 头 开始 编写 。 假 
定 库 代码 已 经 全 面 测 试 过 ， 而 只 有 应 用 程序 相关 的 代码 会 包 仿 bug， 那 
么 调试 就 可 以 仅 限于 这 部 分 代码 。 


遗憾 的 是 ， 这 种 理论 上 的 理想 情况 实际 上 很 少 出 现 。 大 多 数 程 序 部 
是 从 头 开始 编写 ， 它 们 只 对 最 低层 次 的 功能 使 用 库 ， 如 WO 和 内 存 管 
理 。 即 使 对 于 此 类 撒 层 组 件 ， 程 序 员 也 经 币 编 号 特定 于 应 用 程序 的 代 
人 码 。 例 如 ， 将 C 库 函数 malloc 和 free 丛 换 为 定制 的 内 存 管理 函数 的 应 用 程 
序 也 是 很 常见 的 。 




















造成 这 种 情况 的 原因 无 疑 有 诸多 方面 。 其 中 之 一 就 是 ， 很 少 有 哪个 
普遍 可 用 的 库 包含 了 健 六、 设计 良好 的 模块 。 一 些 可 用 的 库 相对 平庸， 
缺少 标准 。 虽然 C 库 自 1989 年 已 经 标准 化 ， 但 直至 现在 才 出 现在 大 多 数 
平台 上 。 











为 一 个 原因 是 规模 问题 ， 一些 库 规模 太 大 ， 从 而 导致 对 库 本 里 功能 
的 掌握 变 成 了 一 项 沉重 的 任务 。 哪 怕 这 项 工作 的 工作 量 似乎 稍 逊 于 编写 
应 用 程序 所 需 的 工作 量 ， 程 序 员 可 能 都 会 重新 实现 库 中 他 们 所 需 的 部 分 
功能 。 最 近 出 现 左 多 的 用 户 界 面 库 ， 遂 常会 有 这 种 问题 。 





库 的 设计 和 实现 是 困难 的 。 在 通用 性 、 简 单 性 和 效率 这 3 个 约束 之 


间 ， 设 计 者 必须 如 履 薄 冰 ， 审 慎 前 行 。 如 果 库 中 的 例 程 和 数据 结构 过 于 
通用 ， 那 么 库 本 身 可 能 难以 使 用 ， 或 因 效率 较 低 而 无 法 达到 预定 目标 。 
如 果 库 的 例 程 和 数据 结构 过 于 简单 ， 又 可 能 无 法 满足 应 用 程序 的 需求 。 
如 宁 库 太 难 于 理解 ， 程 序 员 干脆 就 不 会 使 用 它们 。C 库 本 身 就 提供 了 一 
些 这 样 的 例子 ， 例 如 其 中 的 realloc 函 数 ， 其 语义 混乱 到 令 人 惊讶 的 地 
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ZV o 





FES EL TEINS CAE BAS BEIRT MERE EA) SE EDL 
会 吓 跑 用 户 。 如 宋 茶 个 实现 太 慢 或 太 庞大 ， 或 只 是 感 党 上 如 此 ， 程 序 员 
都 将 自行 设计 亚 代 品 。 最 糟 的 是 ， 如 果实 现 有 bug， 它 将 使 上 述 的 理想 
状况 彻 后 破灭， 从 而 使 库 也 变 得 无 用 。 





本 书 摘 述 了 一 个 库 的 设计 和 实现 ， 它 适应 以 C 语 言 编写 的 各 种 应 用 
程序 的 需求 。 该 库 导 出 了 一 组 模块 ， 这 些 模 块 提供 了 用 于 小 规模 程序 设 
计 《programming-in-the-small〉 的 函数 和 数据 结构 。 在 几 干 行 长 的 应 用 
程序 或 应 用 程序 组 件 中 ， 这 些 模 块 适 于 用 作 和 零 部 件 。 











在 后 续 各 半 中 插 述 的 大 部 分 编程 工具 ， 虱 涵盖 在 大 学 本 科 数 据 结 构 
和 算法 读 程 中 。 但 在 本 书 中 ， 我 们 更 关注 将 这 些 工 具 打 包 的 方式 ， 以 及 
如 何 使 之 健壮 无 错 。 各 个 模块 部 以 一 个 接口 及 其 实现 的 方式 给 出 。 这 
种 设计 方法 学 在 第 2 革 中 进行 了 解释 ， 它 将 模块 规格 说 明 与 其 实现 相 分 
离 ， 以 提高 规格 说 明 的 清晰 度 和 精确 性 ， 而 这 有 助 于 提供 健壮 的 实现 。 








1.1 文学 程序 


本 书 并 不 是 以 “技巧 ”的 形式 来 描述 各 个 模块 ， 而 是 通过 例子 描述 。 
各 和 草 完整 描述 了 一 两 个 接口 及 其 实现 。 这 些 描述 以 文学 程序 〈literate 
program) 的 形式 给 出 。 接 口 及 其 实现 的 代码 与 对 其 进行 解释 的 正文 交 
织 在 一 起 。 更 重要 的 是 ， 各 章 本 里 就 是 其 描述 的 接口 和 实现 的 源 代码 。 
代码 可 以 从 本 书 的 源 文件 文本 中 自动 提取 出 来 ， 所 见 即 所 得 。 





文学 程序 由 英文 正文 和 带 标签 的 程序 代码 块 组 成 。 例 如 ， 


‘compute 


xX 。y)= 
sum = 0; 
for (i = 0; i < n; i++) 


sum += x[i]*y[i]; 


定义 了 名 为 《compute x*y〉 的 代码 块 ， 其 代码 计算 了 数组 x 和 y 的 点 积 。 
在 另 一 个 代码 块 中 使 用 该 代码 块 时 ， 直 接 引 用 即 可 : 


(function 


dotproduct) = 
int dotProduct(int x[], int y[], int n) { 


int i, sum; 


(compute 


x œ y) 
return sum; 


} 


= (function dotproduct) 代码 块 从 本 章 对 应 的 源 文 件 中 抽取 出 来 时 ， 将 
逐 字 复制 其 代码 ， 用 到 代码 块 的 地 方 都 将 蔡 换 为 对 应 的 代码 。 抽 取 
(function dotproduct) 的 结果 是 一 个 只 包含 下 述 代 人 码 的 文件 : 





int dotProduct(int x[], int y[], int n) { 


int i, sum; 


sum = 0; 
for (i = 0; i < n; i++) 
sum += x[i]*y[i]; 


return sum; 


文学 程序 可 以 按 各 个 小 片段 的 形式 给 出 ， 并 附 以 完备 的 文档 。 英 文 
正文 包含 了 传统 的 程序 注释 ， 这 些 并 不 受 程序 设计 语言 的 注释 规范 的 限 
制 |。 











代码 块 的 这 种 特性 将 文学 程序 从 编程 语言 强加 的 顺序 约束 中 解放 出 
来 。 代 码 可 以 按 最 适 于 理解 的 顺序 给 出 ， 而 不 是 按 语言 所 人 硬性 规定 的 顺 
序 〈 例 如 ， 程 序 实体 必须 在 使 用 前 定义 〉。 


本 书 中 使 用 的 文学 编程 系统 还 有 男 外 一 些 特性 ， 它 们 有 助 于 逐 点 对 
程序 进行 描述 。 为 说 明 这 些 特性 并 提供 一 个 完整 的 C 语 言 文学 程序 的 例 
子 ， 本 节 其 余部 分 将 描述 double 程 序 ， 该 程序 检测 输入 中 相 邻 的 相同 单 
词 ， 如 “the the”. 


%% double intro.txt inter.txt 


intro.txt:10: the 
inter.txt:110: interface 
inter.txt:410: type 


inter.txt:611: if 


上 述 UNIX 命 令 结果 说 明 ，“the” 在 intro.txt 文 件 中 出 现 了 两 次 ， 第 二 次 出 
现在 第 10 行 ， 而 在 inter.txt 文 件 中 ，interface、type 和 if 也 分 别 在 给 出 的 行 
出 现 第 二 次 。 如 采 调 用 double 时 不 指定 参数 ， 它 将 读 取 标准 输入 ， 并 在 
输出 时 略 去 文件 名 。 例 如 : 


% cat intro.txt inter.txt | double 


10: the 

143: interface 
343: type 

544: if 


在 上 述 例子 和 其 他 例 示 中 ， 由 用 户 键 入 的 命令 显示 为 斜 代码 体 ， 而 输出 
则 显示 为 通常 的 代码 体 。 


我 们 先 从 定义 根 代码 块 来 实现 double， 该 代码 块 将 使 用 对 应 于 程序 
各 个 组 件 的 其 他 代码 块 : 


(double.c 


3) = 


(includes 


4) 
(data 


4) 


(prototypes 


4) 


(functions 


3) 


按照 惯例 ， 根 代码 块 的 标签 设置 为 程序 的 文件 名 ， 提 取 《double.c 3〉 代 
码 块 ， 即 可 提取 整个 程序 。 其 他 代码 块 的 标签 设置 为 double 的 各 个 顶层 
组 件 名 。 这 些 组 件 按 C 语 言 规定 的 顺序 列 出 ， 但 也 可 以 按 任 意 顺 序 给 
出 。 





(double.c 3) 中 的 3 是 页 码 ， 表 示 该 代码 块 的 定义 从 书 中 哪 一 页 开 
始 。 (double.c3) 中 使 用 的 代码 块 中 的 数字 也 是 页 码 ， 表 示 访 代码 块 的 
定义 从 书 中 哪 一 页 开始 。 这 些 页 码 有 助 于 读者 浏览 代码 时 定位 。 


main 函 数 处 理 double 的 参数 。 它 会 打开 各 个 文件 ， 并 调用 
doubleword 扫 摘 文 件 : 


(functions 


3) = 


int main(int argc, char *argv[]) { 


int 1; 


for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv[i], "r"); 
if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 
argv[0], argv[i], strerror(errno)); 


return EXIT_FAILURE; 


} else { 
doubleword(argv[i], fp); 
fclose(fp); 


} 
if (argc == 1) doubleword(NULL, stdin); 
return EXIT_SUCCESS; 


(includes 


4) = 
#include <stdio.h> 
#include <stdlib.h> 


#include <errno.h> 


doubleword 函 数 需要 从 文件 中 读 取 单词 。 对 于 该 程序 来 说 ， 一 个 单 
词 由 一 个 或 多 个 非 空 格 字 符 组 成 ， 不 区 分 大 小 写 。getword 从 打开 的 文 
件 读 取 下 一 个 单词 ， 复 制 到 buf [0..size-1] 中 ， 并 返回 1; 在 到 达 文 件 末 尾 
时 该 函数 返回 0。 


(functions 


3) += 
int getword(FILE *fp, char *buf, int size) { 


int c; 


c = getc(fp); 


(scan forward to a nonspace character or EOF 


5) 


(copy the word into 


buf [0..size-1] 5) 
if (c != EOF) 


ungetc(c, fp); 


return (found a word? 


Bo 


(prototypes 


4) = 


int getword(FILE *, char *, int); 


该 代码 块 说 明了 另 一 个 文学 编程 特性 : 代码 块 标签 (functions 3) 后 接 
的 += 表 示 将 getword 的 代码 附加 到 代码 块 (functions 3) 的 代码 的 后 面 ， 
因此 该 代码 块 现在 包含 main 和 getword 的 代码 。 该 特性 允许 分 为 多 次 定 

义 一 个 代码 块 中 的 代码 ， 每 次 定义 一 部 分 。 对 于 一 个 “接续 ”代码 块 来 

说 ， 其 标签 中 的 页 人 码 指 癌 该 代码 块 的 第 一 次 定义 处 ， 因 此 很 容易 找到 代 
码 块 定义 的 开始 处 。 


因为 getword 在 main 之 后 定义 ， 在 main 中 调用 getword 时 就 需要 一 个 
BA, Xii (prototypes 4) 代码 块 的 用 处 。 访 代码 块 在 一 定 程度 上 是 
对 C 语 言 “ 先 声明 后 使 用 ”(〈declaration-before-use) 规则 的 让 步 ， 但 如 果 
该 代码 定义 得 一 至 并 在 根 代 码 块 中 出 现在 (functions 3) Zl, AAR 
数 可 以 按 任 何 顺序 给 出 。 








getword 除 了 从 输入 获取 下 一 个 单词 之 外 ， 每 当 遇 到 一 个 换行 字符 


时 都 对 linenum 加 1。doubleword 输 出 时 将 使 用 linenum。 


(data 


4) = 


int linenum; 


(scan forward to a nonspace character or EOF 


5) = 
for ( ; c != EOF && isspace(c); c = getc(fp)) 
if (c == "\n") 


linenum++; 


(includes 


4) += 


#include <ctype.h> 


linenum 的 定义 ， 也 例证 了 代码 块 的 顺序 不 必 与 C 语 言 的 要 求 相 同 。 
linenum 在 其 第 一 次 使 用 时 定义 ， 而 不 是 在 文件 的 顶部 或 getword 定 义 之 





前 ， 后 两 种 做 法 才 是 合乎 C 语 言 要 求 的 。 


size 的 值 限 制 了 getword 所 能 存储 的 单词 的 长 度 ，getword 函 数 会 丢弃 
过 多 的 字符 并 将 大 写字 母 转换 为 小 写 : 





(copy the word into 


buf [@..size-1] 5) = 
{ 
int i = 0; 
for ( ; c != EOF && !isspace(c); c = getc(fp)) 
if (i < size - 1) 
buf[it++] = tolower(c); 
if (i < size) 
buf[i] = '\0'; 
} 














索引 i 与 size-1 进 行 比较 ， 以 保证 单词 末尾 有 空间 存储 一 个 空 字符 。 在 
Size 为 0 时 ， 让 语句 保护 了 对 缓存 的 赋值 操作 。 在 double 中 不 会 出 现 这 种 
情况 ， 但 这 种 防 性 程序 设计 (defensive programming) 有 助 于 捕获 < 不 可 
能 发 生 的 bug”。 











剩 下 的 代码 逻辑 是 ， 如 宁 buf 中 保存 了 一 个 单词 则 返回 1， 人 否则 返回 


(found a word? 


5) = 
buf[0] != '\o' 


该 定义 表明 ， 代 码 块 不 必 对 应 于 C 语 言 中 的 语句 或 任何 其 他 语法 单位 ， 
代码 块 只 是 文本 而 已 。 


doubleword 读 取 各 个 单词 ， 并 将 其 与 前 一 个 单词 比较 ， 发 现 重 复 时 
输出 。 它 只 查看 以 字母 开头 的 单词 : 





(functions 


3) += 
void doubleword(char *name, FILE *fp) { 


char prev[128], word[128]; 


linenum = 1; 
prev[O] = '\O'; 
while (getword(fp, word, sizeof(word)) { 
if (isalpha(word[0]) && strcmp(prev, word)==0) 


(word is a duplicate 


6) 


strcpy(prev, word); 


} 
‘prototypes 


4) += 


void doubleword(char *, FILE *); 


(includes 


4) += 


#include <string.h> 


输出 是 很 容易 的 ， 但 仅 当 name 不 为 NULL 时 才 输 出 文件 名 及 后 接 的 冒 


(mj 


ZT: 


(word is a duplicate 


if (name) 
printf("%s:", name); 
printf("%d: %s\n", linenum, word); 


J 


AR BCE MAT Baa A, A DAE Ae RA Ze’ Park ie 
AJE, 


1.2 程序 设计 风格 


double 说 明了 本 书 中 程序 所 使 用 的 风格 惯例 。 程 序 能 否 更 容易 被 阅 
读 并 理解 ， 比 使 程序 更 容易 被 计算 机 编译 更 为 重要 。 编 详 占 并 不 在 意 变 
量 的 名 称 、 代 码 的 布局 或 程序 的 模块 划分 方式 。 但 这 种 细 市 对 程序 员 阅 
读 以 及 理解 程序 的 难 易 程度 有 很 大 影响 。 























本 书 代码 遭 循 C 程 序 的 一 些 既 定 的 风格 惯例 。 它 使 用 一 致 的 惯例 来 
命名 变量 、 关 型 和 例 程 ， 并 在 本 书 的 排版 约定 下 ， 采 用 一 致 的 缩 进 风 
格 。 风 格 惯例 并 非 是 一 种 必须 遵循 的 刚性 规则 ， 它 们 表示 的 是 程序 设计 
的 一 种 哲学 方法 ， 力 求 最 大 限度 地 增加 程序 的 可 读 性 和 可 理解 性 。 因 
而 ， 几 是 改变 惯例 能 有 助 于 强调 代码 的 重要 方面 或 使 复杂 的 代码 更 可 读 
时 ， 你 完全 可 以 违反 “规则 ”。 








一 般 来 说 ， 较 长 且 宣 于 语义 的 名 称 用 于 全 局 变量 和 例 程 ， 而 数学 符 
写 般 的 短 名 称 则 用 于 局 部 变量 。 代 码 块 (compute xey〉 中 的 循环 索引 i 
属于 后 一 种 惯例 。 对 索引 和 变量 使 用 较 长 的 名 称 通 常会 使 代码 更 难 阅 
读 ， 例 如 下 述 代码 中 








sum = 0; 
for (theindex = 0; theindex < numofElements; theindex++) 


sum += x[theindex]*y[theindex]; 


长 变量 名 反而 使 代码 的 语义 含混 不 清 。 





变量 的 声明 应 该 靠近 于 其 第 一 次 使 用 的 地 方 〈 可 能 在 代码 块 中 ) 。 
linenum 的 声明 很 靠近 在 getword 中 首次 使 用 该 变量 的 地 方 ， 这 就 是 个 例 











子 。 在 可 能 的 情况 下 ， 局 部 变量 的 声明 在 使 用 变量 的 复合 语句 的 开始 
Aho Alin, ARIEI (copy the word into buf[0..size-1] 5) 中 对 ji 的 声明 。 


一 般 来 说 ， 过 程 和 函数 的 名 称 ， 应 能 反映 过 程 完 成 的 工作 及 函数 的 
返回 值 。 因 而 ，getword 应 当 返 回 得 入 中 的 下 一 个 单词 ， 而 doubleword 则 
找到 并 显示 出 现 两 次 或 更 多 次 的 单词 。 大 多 数 例 程 都 比较 简单 ， 不 会 超 
过 一 页 代码 ， 代 码 块 更 短 ， 通 常 少 于 12 行 。 





代码 中 几乎 没有 注释 ， 因 为 围绕 对 应 代码 块 的 正文 代 丛 了 注释 。 有 
关注 释 风格 的 建议 几乎 会 引发 程序 员 间 的 战争 。 本 书 将 效法 C 程 序 设计 
方面 的 典范 ， 最 低 限 度 地 使 用 注释 。 如 果 代 码 很 清晰 ， 且 使 用 了 良好 的 
命名 和 缩 进 惯例 ， 则 这 样 的 代码 通常 是 含义 自明 的 。 仅 当 进 行 解释 时 
〈 例 如 ， 解 释 数 据 结构 的 细节 、 算 法 的 特例 以 及 异常 情况 ) 才 需 要 注 
释 。 编 译 占 无 法 检查 注释 是 否 与 代码 一 怪 ， 误 导 的 注释 通常 比 没有 注释 
更 糟 米 。 最 后 ， 有 些 注释 只 不 过 是 一 种 干扰 ， 其 中 的 噪 首 和 过 多 的 版 式 
掩盖 了 注释 内 容 ， 从 而 使 这 些 注释 只 会 掩盖 代码 本 里 的 含义 。 

文学 编程 避免 了 注释 战争 中 的 许多 争论 ， 因 为 它 不 受 程序 设计 语言 
注释 机 制 的 约束 。 程 序 员 可 以 使 用 最 适合 于 表达 其 意图 的 任何 版 式 特 
性 ， 如 表 、 方 程 、 图 片 和 引文 。 文 学 编程 似乎 提倡 准确 、 精 确 和 清晰 。 








本 书 中 的 代码 以 C 语 言 编写 ， 它 所 使 用 的 大 多 数 惯 用 法 通常 已 小 有 
经 验 的 C 程 序 员 所 接受 并 希望 采用 。 其 中 一 些 惯用 法 可 能 使 不 熟悉 C 语 
言 的 程序 员 困 惑 ， 但 为 了 能 用 C 语 言 流利 地 编程 ， 程 序 员 必 须 掌握 这 些 
惯用 法 。 涉 及 指针 的 惯用 法 通常 是 最 令 人 困惑 的 ， 因 为 C 语 言 为 指针 的 
操作 提供 了 几 种 独特 且 定 有 表达 力 的 运算 符 。 库 函数 strcpy 将 一 个 字符 
串 复 制 到 另 一 个 字符 串 中 并 返回 目标 字符 串 ， 对 该 函数 的 不 同 实现 就 说 
明了 “地 道 的 C 语 言 ? 和 新 手 C 程 序 员 编 写 的 代码 之 间 的 差别 ， 后 一 种 代 





码 通常 使 用 数组 : 


char *strcpy(char dst[], const char src[]) { 


int 1; 


for (i = 0; src[i] != '\O'; i++) 
dst[i] = src[i]; 

dst[i] = '\0'; 

return dst; 


} 

“地 道 ” 的 版 本 则 使 用 指针 : 

char *strcpy(char *dst, const char *src) { 
char *s = dst; 


while (*dst++ = *src++) 


return s; 


} 


这 两 个 版 本 都 是 strcpy 的 合理 实现 。 指 针 版 本 使 用 通常 的 惯用 法 将 赋 
值 、 指 针 弟 增 和 测试 赋值 操作 的 结果 合并 为 单一 的 赋值 表达 式 。 它 还 修 
改 了 其 参数 dst 和 src， 这 在 C 语 言 中 是 可 接受 的 ， 因 为 所 有 参数 都 是 传 值 
的 ， 实 际 上 参数 只 不 过 是 已 初始 化 的 局 部 变量 。 





还 可 以 举 出 很 好 的 例子 ， 来 表明 使 用 数组 版 本 比 指针 版 本 更 好 。 例 
如 ， 所 有 程序 员 痢 更 容易 理解 数组 版 本 ， 无 论 他 们 能 否 使 用 C 语 言 流畅 





地 编程 。 但 指针 版 本 是 最 有 经 验 的 C 程 序 员 会 编写 的 那 种 代码 ， 因 而 程 
序 员 阅 读 现存 代码 时 最 有 可 能 遇 到 它 。 本 书 可 以 帮助 读者 学 习 这 些 惯 用 
法 、 理 解 C 语 言 的 优点 并 避免 易 犯 的 错误 。 


1.3 效率 


程序 员 似 乎 被 效率 问题 困扰 着 。 他 们 可 能 花费 数 小 时 来 微调 代码 ， 
使 之 运行 得 更 快 。 遗 憾 的 是 ， 大 部 分 这 种 工作 都 是 无 用 功 。 妆 猜测 程序 
的 运行 时 间 花 费 在 何 处 时 ， 程 序 员 的 直 沉 非常 糟糕 。 








微调 程序 是 为 了 使 之 更 快 ， 但 通常 总 是 会 使 之 更 大 、 更 难 理解 、 更 
可 能 包含 错误 。 除 非 对 执行 时 间 的 测量 表明 程序 太 慢 ， 人 否则 这 样 的 微调 
没有 意义 。 程 序 只 需要 足够 快 即 可 ， 不 一 定 要 尽 可 能 快 。 








微调 通 凋 在 “真空 "中 完成 。 如 果 一 个 程序 太 慢 ， 找 到 其 瓶颈 的 唯一 
途径 就 是 测量 它 。 程 序 的 瓶 祷 很 少 出 现在 预期 位 置 或 者 是 因 你 所 怀 疑 的 
原因 导致 ， 而 且 在 错误 位 置 上 微调 程序 是 没有 意义 的 。 在 找到 正确 的 位 
置 后 ， 仅 当 该 处 花费 的 时 间 确 实 占 运行 时 间 的 很 大 比例 时 ， 才 有 必要 进 
行 微调 。 如 果 IO 占 了 程序 运行 时 间 的 60%， 在 搜索 例 程 中 节省 1% 是 无 
意义 的 。 




















微调 通常 会 引入 错误 。 最 快 衣 尝 的 程序 绝 非 胜 者 。 可 靠 性 比 效率 更 
重要 ; 与 交付 足够 快 的 可 徘 软 件 相 比 ， 交 付 快速 但 会 月 尝 的 软件 ， 从 长 
远 看 来 代价 更 高 。 

微调 经 党 在 错误 的 层次 上 进行 。 快 速算 法 的 直接 简明 的 实现 ， 比 慢 
速算 法 的 手工 微调 实现 要 好 得 多 。 例 如 ， 减 少 线性 碍 找 的 内 层 循环 的 指 
令 数 ， 注 定 不 如 直接 使 用 二 分 查找 。 


微调 无 法 修复 低劣 的 设计 。 如 宁 程 序 到 处 都 慢 ， 这 种 低 效 很 可 能 是 
设计 导致 的 。 当 基于 编写 得 很 糟糕 或 不 精确 的 问题 说 明 给 出 设计 时 ， 或 


者 根本 就 没有 总 体 设计 时 ， 束 会 发 生 这 种 令 人 遗憾 的 情况 。 


本 书 中 大 部 分 代码 都 使 用 了 高 效 的 算法 ， 具 有 民 好 的 平均 情况 性 
能 ， 其 最 坏 情形 性 能 也 易于 概括 。 对 大 多 数 应 用 程序 来 说 ， 这 些 代码 对 
典型 输入 的 执行 时 间 总 是 足够 快速 的 。 当 茶 些 程序 的 代码 性 能 可 能 会 导 
致 问题 时 ， 书 中 上 自 会 明确 注 明 。 











一 些 C 程 序 员 在 寻求 提高 效率 的 途径 时 ， 大 量 使 用 宏和 条 件 编译 。 
只 要 有 可 能 ， 本 书 将 避免 使 用 这 两 种 方法 。 使 用 宏 来 避免 函数 调用 基本 
上 是 不 必要 的 。 仪 当 客 观 的 测量 结果 表明 有 问题 的 调用 的 开销 大 大 超出 
其 余 代码 的 运行 时 间 时 ， 使 用 宏 才 有 意义 。 操 作 1O 是 较 适 家 采用 宏 的 
少数 情况 之 一 。 例 如 ， 标 准 的 VO 函数 getc、putc、getchar 和 putchar 通 常 
实现 为 宏 。 








条 件 编译 通常 用 于 配置 特定 平台 或 环境 的 代码 ， 或 者 用 于 代码 调试 
的 局 用 / 蔡 用 。 这 些 问 题 是 实际 存在 的 ， 但 条 件 编 译 通 常 只 是 解决 问题 
的 较为 容易 的 方法 ， 而 且 总 会 使 代码 更 难于 阅读 。 而 重 写 代码 以 便 在 执 
行 期 间 选 择 平 台 依 赖 关系 通 音 则 更 为 有 有 用。 例如， 一 个 编译 器 可 以 在 执 
行 时 选择 多 种 《比如 说 6 种 ) 体系 结构 中 的 一 个 来 生成 代码 ， 这 样 的 一 
种 交叉 编译 器 要 比 必须 配置 并 搭建 6 个 不 同 的 编译 器 更 有 用 ， 而 且 可 能 
更 易于 维护 。 














如 果 应 用 程序 必须 在 编译 时 配置 ， 与 C 语 言 的 条 件 编译 工具 相 比 ， 
版 本 控制 工具 更 擅长 完成 该 工作 。 这 样 ， 代 码 中 束 不 必 充 斥 着 预 处 理 絮 
指令 ， 因 为 那 会 使 代码 难于 阅读 ， 并 模糊 被 编译 和 未 被 编译 的 代码 之 间 
的 界限 。 使 用 版 本 控制 工具 ， 你 看 到 的 代码 即 为 被 执行 的 代码 。 对 于 跟 
踊 性 能 改进 情况 来 说 ， 这 些 工具 也 是 理想 的 选择 。 


1.4 扩展 阅读 


对 于 标准 C 库 来 说 ，ANSI 标 准 [ANSI 1990] 和 技术 上 等 效 的 ISO 标 准 
[ISO 1990] 是 权威 的 参考 文献 ， 但 [Plauger，1992] 一 书 给 出 了 更 详细 的 
描述 和 完整 的 实现 。 同 样 ，C 语 言 相 关 问 题 的 定论 就 在 于 这 些 标准 ， 但 
[Kernighan and Ritchie，1988] 一 书 却 可 能 是 最 广 为 使 用 的 参考 。 
[Harbison and Steele，1995] 一 书 的 最 新 版 本 或 许 是 C 语 言 标准 的 最 新 的 
资料 ， 它 还 摘 述 了 如 何 编写 “干净 的 C”， 即 可 以 用 C++ 编译 器 编译 的 C 代 
人 码 。[Jaeschke，1991] 一 书 将 标准 C 语 言 的 精华 浓缩 为 紧凑 的 词典 格式 ， 
这 份 资料 对 C 程 序 员 来 说 也 很 有 用 。 

















[Kernighan and Plauger，1976] 一 书 给 出 了 文学 程序 的 早期 例子 ， 当 
然 作 者 对 文学 编程 没 太 多 认识 ， 只 是 使 用 了 专门 开发 的 工具 将 代码 集成 
到 书 中 。WEB 是 首 批 明 确 为 文学 编程 设计 的 工具 之 一 。[Knuth，1992] 
一 书 描述 了 WEB 和 它 的 一 些 变 体 及 用 法 ，[Sewell，1989] 一 书 是 WEB 的 
入 门 介绍 。 更 简单 的 工具 ([Hanson，1987]，[Ramsey，1994]) 发 展 了 
很 长 时 间 才 提供 WEB 的 大 部 分 基本 功能 。 本 书 使 用 notangle 来 提取 代码 
块 ， 它 是 Ramsey 的 noweb 系 统 中 的 程序 之 一 。[Fraser and Hanson, 1995] 
一 书 也 使 用 了 noweb， 该 书 以 文学 程序 的 形式 给 出 了 一 个 完整 的 C 语 言 
编译 器 。 该 编译 器 也 是 一 个 交叉 编译 器 。 











double 取 自 [Kernighan and Pike，1984]， 在 该 书 中 double 是 用 AWK 
[Aho, Kernighan and Weinberger，1988] 程 序 设 计 语 言 实 现 的 。 尽 管 年 龄 
老 迈 ， 但 [Kernighan and Pike，1984] 仍 然 是 UNIX 程 序 设计 哲学 方面 的 最 
佳 书 籍 之 一 。 


学 习 民 好 的 程序 设计 风格 ， 最 好 的 方法 是 阅读 风格 良好 的 程序 。 本 
书 将 遵循 [Kernighan and Pike，1984] 和 [Kernighan and Ritchie，1988] 中 
的 风格 ， 这 种 风格 经 久 而 不 衰 。[Kernighan and Plauger，1978] 一 书 是 程 
序 设 计 风 格 方面 的 经 典 车 作 ， 但 该 书 并 不 包含 C 语 言 的 例子 。Ledgard 的 
小 书 [Ledgard，1987] 提 供 了 类 似 的 建议 ， 而 [Maguire，1993] 从 PC 程序 
设计 的 角 搬 阐述 了 程序 设计 风格 问题 。[Koenig，1989] 一 书 其 露 的 C 语 
言 的 黑暗 角落 ， 强 调 了 那些 应 该 避免 的 东西 。[McConnell，1993] 一 书 在 
与 程序 构建 相关 的 许多 方面 提供 了 明智 的 建议 ， 并 针对 使 用 goto 语 句 的 
利 浆 两 方面 进行 了 不 偏 不 倚 的 讨论 。 











学 习 编写 高 效 的 代码 ， 最 好 的 方法 是 在 算法 方面 有 扎实 的 基础 ， 并 
阅读 其 他 高 效 的 代码 。[Sedgewick，1990] 一 书 纵览 了 大 多 数 程 序 员 都 必 
须知 道 的 所 有 重要 算法 ， 而 [Knuth，1973a] 一 书 对 算法 基础 进行 了 至 为 
详细 的 讨论 。[Bentley，1982] 一 书 有 170 页 ， 给 出 了 编写 高 效 代 码 方面 
的 一 些 有 益 的 建议 和 常识 。 


15 习题 


1.1 在 一 个 单词 结束 于 换行 符 时 ，getword 在 (scan forward to a 
nonspace or EOF 5〉 代 码 块 中 将 linenum 加 1， 而 不 是 在 ‘copy the word 
into buf[0..size-1] 5〉 代 码 块 之 后 。 解 释 这 样 做 的 原因 。 如 果 在 本 例 中 ， 
linenum 的 加 1 操作 是 在 (copy the word into buf[0..size-1] 5〉 代 码 块 之 后 
进行 ， 会 发 生 什么 情况 ? 








1.2” 当 double 在 输入 中 发 现 3 个 或 更 多 相同 单词 时 会 显示 什么 ? 修 
改 double 来 改 挥 这 个 “特性 ”。 


13 许多 有 经 验 的 C 程 序 员 会 在 strcpy 的 循环 中 加 入 一 个 显 式 的 比 
较 操 作 : 


char *strcpy(char *dst, const char *src) { 


char *s = dst; 


while ((*dst++ = *src++) != '\O') 
return s; 


} 


显 式 比较 表明 赋值 操作 并 非 笔 误 。 一 些 C 编 译 器 和 相关 工具 ， 如 Gimpel 
Software 的 PC-Lint 和 LCLint[Evans，1996]， 在 发 现 赋值 操作 的 结果 用 作 
条 件 表达 式 时 会 发 出 警告 ， 因 为 这 种 用 法 是 一 个 常见 的 错误 来 源 。 如 采 
读者 有 PC-Lint 或 LCLint， 可 以 在 一 些 “ 测 试 ? 过 的 程序 上 进行 试验 。 


第 2 草 ”接口 与 实现 


模块 分 为 两 个 部 分 ， 即 模块 的 接口 与 实现 。 接 口 规定 了 模块 做 什 
么 。 接 口 会 声明 标识 符 、 类 型 和 例 程 ， 提 供给 使 用 模块 的 代码 。 实 现 指 
明 模块 如 何 完 成 其 接口 规定 的 目标 。 对 于 给 定 的 模块 ， 通 常 只 有 一 个 接 
口 ， 但 可 能 有 许多 实现 提供 了 接口 规定 的 功能 。 每 个 实现 可 能 使 用 不 同 
的 算法 和 数据 结构 ， 但 它们 都 必须 合乎 接口 的 规定 。 








客户 程序 〈client) 是 使 用 模块 的 一 段 代 码 。 客 户 程序 导入 接口 ， 
实现 则 导出 接口 。 客 户 程序 只 需要 看 到 接口 即 可 。 实 际 上 ， 它 们 可 能 只 
有 实现 的 目标 码 。 多 个 客户 程序 共享 接口 和 实现 ， 因 而 避免 了 不 必要 的 
代码 重复 。 这 种 方法 学 也 有 助 于 避免 bug， 接 口 和 实现 编写 并 调试 一 次 
后 ， 可 以 经 常 使 用 。 











2.1 接口 








接口 仅 规定 客户 程序 可 能 使 用 的 那些 标识 符 ， 而 尽 可 能 隐藏 不 相关 
的 表示 细节 和 算法 。 这 有 助 于 客户 程序 避免 依赖 特定 实现 的 具体 细节 。 
客户 程序 和 实现 之 间 的 这 种 依赖 性 称 之 为 耘 合 〈coupling) ， 在 实现 改 
变 时 耦合 会 导致 bug， 当 依赖 性 被 与 实现 相关 的 隐藏 或 隐 含 的 假定 掩盖 
时 ， 这 种 bug 可 能 会 特别 难于 改正 。 设 计 完 善 且 陈述 准确 的 接口 可 以 减 


DRE o 











对 于 接口 与 实现 相 分 离 ，C 语 言 只 提供 了 最 低 限 度 的 文 持 ， 但 通过 
一 些 简单 的 约定 ， 我 们 即 可 获得 接口 /实现 方法 学 的 大 多 数 好 处 。 在 C 语 
言 中 ， 接 口 通过 一 个 头 文件 指定 ， 头 文件 的 扩展 名 通常 为 .hn。 这 个 头 文 
件 会 声明 客户 程序 可 能 使 用 的 宏 、 类 型 、 数 据 结构 、 变 量 和 例 程 。 客 户 
程序 用 C 预 处 理 器 指令 #include 导 入 接口 。 








以 下 例子 说 明了 本 书 中 的 接口 使 用 的 约定 。 下 述 接 口 


(arith.h 


= 
extern int Arith_max(int x, int y); 
extern int Arith_min(int x, int y); 
extern int Arith_div(int x, int y); 


extern int Arith_mod(int x, int y); 


extern int Arith_ceiling(int x, int y); 


extern int Arith_floor (int x, int y); 





声明 了 6 个 整数 算术 运算 函数 。 该 接口 的 实现 需要 为 上 述 每 一 个 函数 所 
供 定 义 。 


该 接口 命名 为 Arith， 接 口头 文件 命名 为 arithh。 在 接口 中 ， 接 口 名 
称 表 现 为 每 个 标识 符 的 前 级 。 这 种 约定 并 不 优美 ， 但 C 语 言 几 乎 没有 所 
供 其 他 备 选 方案 。 所 有 文件 作用 域 中 的 标识 符 ， 包 括 变量 、 函 数 、 类 型 
定义 和 枚 举 常 数 ， 都 共 吾 同一 个 命名 空间 。 所 有 的 全 局 结构 、 联 合 和 枚 
举 标记 则 共享 妨 一 个 命名 空间 。 在 一 个 大 程序 中 ， 在 本 来 无 天 的 模块 
中 ， 很 容易 使 用 同一 名 称 表示 不 同 的 目的 。 避 免 这 种 名 称 冲突 Came 
collision) 的 一 个 方法 是 使 用 前 缀 ， 如 模块 名 。 一 个 大 程序 很 容易 有 数 
干 全 局 标识 符 ， 但 通常 只 有 几 百 个 模块 。 模 块 名 不 仅 提 供 了 适当 的 前 
级 ， 还 有 助 于 使 客户 程序 代码 文档 化 。 























Arith 接 口中 的 函数 提供 了 标准 C 库 缺失 的 一 些 有 用 功能 ， 并 对 除法 
和 模 运 算 提 供 了 民 定 义 的 结果 ， 而 标准 则 将 这 些 操 作 的 行为 规定 为 未 定 
SC (undefined) 或 由 具体 实现 来 定义 〈implementation-defined) 。 





Arith_min 和 Arith_max 函 数 分 别 返 回 其 整 型 参数 的 最 小 值 和 最 大 
值 。 


Arith_div 返 回 x 除 以 y 获 得 的 商 ， 而 Arith_mod 则 返回 对 应 的 余数 。 
当 x 和 y 都 为 正 或 都 为 负 时 ，Arith_div(x,y) 等 于 x/y， 而 Arith_mod(x,y) 等 
于 x%y。 然 而 当 两 个 操作 数 符号 不 同时 ， 由 C 语 言 内 建 运算 符 所 得 出 的 
返回 值 取决 于 具体 编译 占 的 实现 。 当 y 为 零 时 ，Arith_divr 和 Arith_mod 的 
行为 与 x/y 和 x%y 相 同 。 








C 语 言 标准 只 是 强调 ， 如 果 x/y 是 可 表示 的 ， 那 么 (x/y)*y+x%y 必 须 
等 于 X。 当 一 个 操作 数 为 负数 时 ， 这 种 语义 使 得 整数 除法 可 以 向 零售 
入 ， 也 可 以 向 负 无 穷 大 舍 入 。 例 如 ， 如 果 -13/5 的 结果 定义 为 -2， 那 么 标 
准 指出 ，-13%5 必 须 等 于 -13-(-13/5)*5=-13-(-2)*5=-3。 但 如 果 -13/5 定 义 
为 -3， 那 么 -13%5 的 值 必须 是 -13-(-3)*5=2。 








因而 内 建 的 运算 符 只 对 正 的 操作 数 有 用 。 标 准 库 函数 div 和 ]ldiv 以 两 
个 整数 或 长 整数 为 输入 ， 并 计算 二 者 的 商 和 余数 ， 在 一 个 结构 的 quot 和 
rem 字 段 中 返回 。 这 两 个 函数 的 语义 是 良 定 义 的 : 它们 总 是 同 零 舍 入 ， 
因此 div(-13,5).quot 总 是 等 于 -2。Arith_div 和 Arith_mod 同 样 是 良 定义 的 。 
它们 总 是 向 数 轴 的 左 侧 售 人 ， 当 其 操作 数 符 号 相同 时 癌 零 伟人 入 ， 当 其 符 
号 不 同时 向 负 无 穷 大 舍 入 ， 因 此 Arith_div(-13,5) 返 回 -3。 














Arith_div 和 Arith_mod 的 定义 可 以 用 更 精确 的 数学 术语 来 表达 。 
Arith_div(xy) 定 义 为 不 超过 实数 z 的 最 大 整数 ， 而 zxy=x。 因 而 ， 对 x=-13 
和 y=5 【或 者 x=13 和 y=-5) ，z 为 -2.6， 因 此 Arith_div(-13,5) 为 -3。 
Arith_mod(x,y)7e (AF x-y*Arith_div(x,y), Alt Arith_mod(-13,5) 

为 -13-5*(-3)=2。 


Arith_ceiling #Arith_floorek BUSA RWWA cE. Arith_ceiling(x,y)ik 
回 不 小 于 x/y 的 实数 丙 的 最 小 整数 ， 而 Arith_floor(x,y) 返 回 不 大 于 x/y 的 实 
数 商 的 最 大 整数 。 对 所 有 操作 数 x 和 y 来 说 ，Arith_ceiling 返 回 数 轴 在 x/y 
对 应 点 右 侧 的 整数 ， 而 Arith_floor 返 回 x/y 对 应 点 左 侧 的 整数 。 例 如 : 


Arith ceiling( 13,5) = 13/5 = 2.6 = 
Arith_ceiling(-13,5) =-13/5 = -2.6 = 
Arith_floor ( 13,5) = 13/5 = 2.6 = 


1 1 
CD N N CD 


Arith_floor (-13,5) =-13/5 = -2.6 = 


即便 简单 如 Arith 这 种 程度 的 接口 仍然 需要 这 么 费劲 的 规格 说 明 ， 但 
对 大 多 数 接口 来 说 ，Arith 的 例子 很 有 代表 性 和 必要 性 《很 让 人 遗憾 ) 。 
大 多 数 编程 语言 的 语义 中 都 包含 漏洞 ， 某 些 操 作 的 精确 含义 定义 得 不 明 
确 或 根本 未 定义 。C 语 言 的 语义 充满 了 这 种 漏洞 。 设 计 完 善 的 接口 会 塞 
住 这 些 漏洞 ， 将 未 定义 之 处 定义 完善 ， 并 对 语言 标准 规定 为 未 定义 或 由 
具体 实现 定义 的 行为 给 出 明确 的 裁决 。 








Arith 不 仅 是 一 个 用 来 显示 C 语 言 缺 陷 的 人 为 范例 ， 它 也 是 有 用 的 ， 
例如 对 涉及 模 运 算 的 算法 ， 就 像 是 哈 希 表 中 使 用 的 那些 算法 。 假 定 ij 从 
零 到 N-1， 其 中 N 大 于 1， 并 对 i 加 1 和 i 减 1 的 结果 模 N。 即 ， 如 果 i 为 N-1， 
i+1 为 0， 而 如 果 i 为 0，i-1 为 N-1。 下 述 表达 式 


i = Arith mod(i + 1, N); 


i = Arith_mod(i - 1, N); 


正确 地 对 i 进行 了 加 1 模 N 和 减 1 模 N 的 操作 。 表 达 式 i=(i+1)%N 可 以 工作 ， 
但 =(i-1)%N 无 法 工作 ， 因 为 当 i 为 0 时 ，(i-1)%N 可 能 是 -1 或 N-1。 程 序 员 
在 (-1)%N 返 回 N-1 的 计算 机 上 可 以 使 用 (i-1)%N， 但 如 果 依 赖 这 种 由 具体 
实现 定义 的 行为 ， 那 么 在 将 代码 移植 到 (-1D)%N 返 回 -1 的 计算 机 上 时 ， 就 
可 能 遭遇 到 非常 出 人 意料 的 行为 。 库 函 数 div(xy) 也 无 济 于 事 。 它 返回 一 
个 结构 ， 其 quot 和 和 rem 字段 分 别 保存 x/y 的 两 和 余数 。 在 i 为 零 时 ，div(i-1,， 
N).rem 总 是 -1。 使 用 i=(i-1+N)%N 是 可 以 的 ， 但 仅 当 i-1+N 不 造成 溢出 时 
AAT 


2.2 ”实现 


实现 会 导出 接口 。 它 定义 了 必要 的 变量 和 函数 ， 以 提供 接口 规定 的 
功能 。 实 现 具体 解释 了 接口 的 语义 ， 并 给 出 其 表示 细节 和 算法 ， 但 在 理 
想 情况 下 ， 客 户 程序 从 来 都 不 需要 看 到 这 些 细节 。 不 同 的 客户 程序 可 以 
共享 实现 的 目标 码 ， 通 常 是 从 (动态 ) 库 加 载 实 现 的 目标 码 。 











一 个 接口 可 以 有 多 个 实现 。 只 要 实现 遵循 接口 的 规定 ， 完 全 可 以 在 
不 影响 客户 程序 的 情况 下 改变 实现 。 例 如 ， 不 同 的 实现 可 能 会 提供 更 好 
的 性 能 。 设 计 完 善 的 接口 会 避免 对 特定 机 器 的 依赖 ， 但 也 可 能 强制 实现 
依赖 于 机 右 ， 因 此 对 用 到 接口 的 每 种 机 器 ， 可 能 都 需要 一 个 不 同 的 实现 

〈 也 可 能 是 实现 的 一 部 分 ) 来 文 持 。 





在 C 语 言 中 ， 一 个 实现 通过 一 个 或 多 个 .c 文 件 来 提供 。 实 现 必须 提 
供 其 导出 的 接口 规定 的 功能 。 实 现 会 包含 接口 的 .h 文 件 ， 以 确保 其 定义 
与 接口 的 声明 一 致 。 但 除 此 之 外 ，C 语 言 中 没有 其 他 语言 机 制 来 检查 实 
现 与 接口 是 否 符合 。 


如 同 本 书 中 的 接口 ， 本 书 描述 的 实现 也 具有 一 种 风格 化 的 格式 ， 如 
arith.c 所 示 : 


(arith.c 


#include "arith.h" 


(arith.c functions 


14) 


(arith.c functions 


14) = 
int Arith_max(int x, int y) { 


return x> y ? X i y; 


int Arith_min(int x, int y) { 


return x> y ? y i X; 


除了 (arith.c functions 14) ， 更 复杂 的 实现 可 能 包含 名 为 (data ) , 
(types ) ~ macros) ~ (prototypes) 等 的 代码 块 。 在 不 会 造成 混淆 
时 ， 代 码 块 中 的 文件 名 《如 arith.c) 将 略 去 。 


在 Arith_div 的 参数 符号 不 同时 ， 它 必须 处 理 除法 的 两 种 可 能 行为 。 
如 果 除 法 癌 零 舍 入 ， 而 y 不 能 整除 x， 那 么 Arith_div(x,y) 的 结果 为 x/y-1， 


(arith.c functions 


14) += 
int Arith_div(int x, int y) { 


if ( (division truncates toward 0 


14) 
&& (x and 


y have different signs 


14) && x%y != 0) 
return x/y - 1; 
else 


return x/y; 


前 一 节 的 例子 ， 即 将 -13 除 以 5， 可 以 测试 除法 所 采用 的 舍 入 方式 。 首 先 
判断 x 和 和 y 是 否 小 于 0， 然 后 比较 两 个 判断 结果 是 人 否 相 等 ， 即 可 检查 符 写 





问题 : 


(division truncates toward 0 


14) = 


-13/5 == -2 


(x and 


y have different signs 


14) = 


(x < 0) != (y < 0) 
Arith_mod 可 以 按 其 定义 实现 : 


int Arith_mod(int x, int y) { 


return x - y*Arith_div(x, y); 


如 果 Arith_mod 也 像 Arith_div 那 样 进行 判断 ， 那 么 也 可 以 使 用 % 运 算 
符 实 现 。 在 相应 的 条 件 为 真 时 ， 





Arith_mod(x,y) = x - y*Arith_div(x, y) 
= Xx - YP Oy - 1) 


= x - y*(x/ 


+ y 
加 下 划 线 的 子 表达 式 是 标准 C 对 x%y 的 定义 ， 因 此 Arith_mod 可 定义 为 : 


‘arith.c functions 


14) += 
int Arith_mod(int x, int y) { 


if ( (division truncates toward 0 


14) 


&& (x and 


y have different signs 


14) && x%y != 0) 
return x%y + y; 
else 


return x%y; 


Arith_floor 刚 好 等 于 Arith_div， 而 Arith_ceiling 等 于 Arith_div 加 1， 除 非 y 
能 整除 x: 


(arith.c functions 


14) += 
int Arith_floor(int x, int y) { 


return Arith_div(x, y); 


int Arith_ceiling(int x, int y) { 


return Arith_div(x, y) + (x%y != 0); 


2.3 ”抽象 数据 类 型 


一 个 抽象 数据 类 型 是 一 个 接口 ， 它 定义 了 一 个 数据 类 型 和 对 该 类 型 
的 值 所 进行 的 操作 。 一 个 数据 类 型 是 一 个 值 的 集合 。 在 C 语 言 中 ， 内 建 
的 数据 类 型 包括 人 字符、 整数 、 浮 点 数 等 。 而 结构 本 喘 也 能 定义 新 的 类 
型 ， 因 而 可 用 于 建立 更 高 级 类 型 ， 如 列表 、 树 、 碍 找 表 等 。 


高 级 类 型 是 抽象 的 ， 因 为 其 接口 隐藏 了 相关 的 表示 细节 ， 并 只 规定 
了 对 该 类 型 值 的 合法 操作 。 理 想 情 况 下 ， 这 些 操作 不 会 暴露 类 型 的 表示 
细节 ， 因 为 那样 可 能 使 客户 程序 隐 仿 地 依赖 于 具体 的 表示 。 抽 象 数据 类 
型 或 ADT 的 标准 范例 是 栈 。 其 接口 定义 了 栈 类 型 及 其 5 个 操作 : 


(initial version of stack.h 


) = 
#ifndef STACK_INCLUDED 


#define STACK_INCLUDED 
typedef struct Stack_T *Stack_T; 


extern Stack_T Stack_new (void); 
extern int Stack_empty(Stack_T stk); 
extern void Stack_push (Stack_T stk, void *x); 


extern void *Stack_pop (Stack_T stk); 


extern void Stack_free (Stack_T *stk); 


#endif 


上 述 的 typedef 定 义 了 Stack_T 类 型 ， 这 是 一 个 指针 ， 指 同一 个 同名 结 
构 。 访 定义 是 合法 的 ， 因 为 结构 、 联 合 和 枚 举 的 名 称 《〈 标 记 ) 占用 了 一 
个 命名 空间 ， 该 命名 空间 不 同 于 变量 、 函 数 和 类 型 名 所 用 的 命名 空间 。 

这 种 惯用 法 的 使 用 过 及 本 书 各 处 。 类 型 名 Stack_ T， 是 这 个 接口 中 我 们 

关注 的 名 称 ， 只 有 对 实现 来 说 ， 结 构 名 才 比 较 重 要 。 使 用 相同 的 名 称 ， 

可 以 避免 用 太 多 罕见 的 名 称 污染 代码 。 











宏 STACK_INCLUDED 也 会 污染 命名 空间 ， 但 _INCLUDED 后 级 有 
助 于 避免 冲突 。 男 一 个 常见 的 约定 是 为 此 类 名 称 加 一 个 下 划 线 前 级 ， 如 
_STACK 或 _ STACK_INCLUDED。 但 标准 C 将 下 划 线 前 级 保留 给 实现 者 
和 未 来 的 扩展 使 用 ， 因 此 避免 使 用 下 划 线 前 缀 看 起 来 是 谨慎 的 做 法 。 








该 接口 透露 了 栈 是 通过 指向 结构 的 指针 表示 的 ， 但 并 没有 给 出 结构 
的 任何 信息 。 因 而 Stack_T 是 一 个 不 透明 指针 类 型 ， 客 户 程序 可 以 目 由 
地 操纵 这 种 指针 ， 但 无 法 反 引 用 不 透明 指针 ， 即 无 法 碍 看 指针 所 指 同 结 
构 的 内 部 信息 。 只 有 接口 的 实现 才 有 这 种 特权 。 











不 透明 指针 隐藏 了 表示 细节 ， 有 助 于 捕获 错误 。 只 有 Stack_T 类 型 
值 可 以 传递 给 上 述 的 函数 ， 试 图 传递 为 一 种 指针 ， 如 指 癌 其 他 结构 的 指 
针 ， 将 产生 编译 错误 。 唯 一 的 例外 是 参数 中 的 一 个 void 指 针 ， 该 该 参数 
可 以 传递 任何 类 型 的 指针 。 


条 件 编译 指令 上 让 fdef 和 #endif 以 及 定义 STACK_INCLUDED 的 
#define， 使 得 stack.h 可 以 被 包含 多 次 ， 在 接口 又 导入 了 其 他 接口 时 可 能 


出 现 这 种 情况 。 如 果 没 有 这 种 保护 ， 第 二 次 和 后 续 的 包含 操作 ， 将 因为 
typedef 中 的 Stack_T 重 定义 而 导致 编译 错误 。 


在 少数 可 用 的 备 选 方案 中 ， 这 种 约定 似乎 是 最 温和 的 。 茜 止 接口 包 
含 其 他 接口 ， 可 以 完全 避免 重复 包含 ， 但 这 又 强制 接口 用 茶 种 其 他 方法 
指定 必须 导入 的 其 他 接口 ， 如 注释 ， 也 强迫 程序 员 来 提供 包含 指令 。 将 
条 件 纺 译 指令 放 在 客户 程序 而 不 是 接口 中 ， 可 以 避免 编译 时 不 必要 地 读 
取 接 口 文件 ， 但 代价 是 需要 在 许多 地 方 衍 生出 很 多 乱七八糟 的 条 件 编译 
中 令 ， 不 像 只 放 在 接口 中 那样 清洁 。 上 文 说明 的 约定 ， 需 要 编译 器 来 完 
成 所 谓 的 “ 脏 活 ”。 














按 约 定 ， 定 义 ADT 的 接口 X 可 以 将 ADT 类 型 命名 为 X_T。 本 书 中 的 
接口 在 这 个 约定 基础 上 更 进一步 ， 在 接口 内 部 使 用 宏 将 X_ TI 缩写 为 T。 
使 用 该 约定 时 ，stack.h 如 下 : 


(stack.h 


)= 
#ifndef STACK_INCLUDED 
#define STACK_INCLUDED 


#define T Stack_T 


typedef struct T *T; 


extern T Stack_new (void); 


extern int Stack_empty(T stk); 


extern void Stack_push (T stk, void *x); 
extern void *Stack_pop (T stk); 


extern void Stack_free (T *stk); 


#undef T 


#endif 





该 接口 在 语义 上 与 前 一 个 是 等 效 的 。 缩 写 只 是 语法 糖 (syntactic 

sugar) ， 使 得 接口 稍微 容易 阅读 一 些 。T 指 的 总 是 接口 中 的 主要 类 型 。 
但 客户 程序 必须 使 用 Stack_T， 因 为 stack.h 末 尾 的 #undef 指 令 删 除了 上 述 
的 缩写 。 





该 接口 提供 了 可 用 于 任意 指针 的 容量 无 限制 的 栈 。Stack_new 创 建 
新 的 栈 ， 它 返回 一 个 类 型 为 T 的 值 ， 可 以 作为 参数 传递 给 其 他 四 个 函 
数 。Stack_push 将 一 个 指针 推 入 栈 顶 ，Stack_pop 在 栈 顶 删除 一 个 指针 并 
返回 该 指针 ， 如 果 栈 为 空 ，Stack_empty 返 回 1， 和 否则 返回 0。Stack_free 
以 一 个 指向 TI 的 指针 为 参数 ， 释 放 该 指针 所 指 癌 的 栈 ， 并 将 类 型 为 T 的 
变量 设置 为 NULL 指 针 。 这 种 设计 有 助 于 避免 悬挂 指针 (dangling 
pointer) ， 即 指针 指 回 已 经 被 释放 的 内 存 。 例 如 ， 如 果 names 通 过 下 述 
代码 定义 并 初始 化 : 





#include "stack.h" 


Stack_T names = Stack_new(); 


Stack_free(&names); 


将 释放 names 指 同 的 栈 ， 并 将 names 设 置 为 NULL 指 针 。 





当 ADT 通 过 不 透明 指针 表示 时 ， 导 出 的 类 型 是 一 个 指针 类 型 ， 这 也 
是 Stack_T 通 过 typedef 定 义 为 指向 struct Stack_T 的 指针 的 原因 。 本 书 中 大 
部 分 ADT 都 使 用 了 类 似 的 typedef。 当 ADT 披 露 了 其 表示 细节 ， 并 导出 可 
接受 并 返回 相应 结构 值 的 函数 时 ， 接 口 会 将 该 结构 类 型 定义 为 导出 类 
型 。 第 16 章 中 的 Text 接 口 说 明了 这 种 约定 ， 该 接口 将 Text_T 声 明 为 struct 
Text_ 芽 的 一 个 typedef。 无 论 如 何 ， 接 口中 的 主要 类 型 总 是 缩写 为 T。 








2.4 客户 程序 的 职责 


接口 是 其 实现 和 其 客户 程序 之 间 的 一 份 契约 。 实 现 必须 提供 接口 中 
规定 的 功能 ， 而 客户 程序 必须 根据 接口 中 描述 的 隐 式 和 显 式 的 规则 来 使 
用 这 些 功 能 。 程 序 设 计 语 言 提 供 了 一 些 隐 式 规 则 ， 来 文 配 接口 中 声明 的 
类 型 、 函 数 和 变量 的 使 用 。 例 如 ，C 语 言 的 类 型 检查 规则 可 以 捕获 接口 
函数 的 参数 的 类 型 和 数目 方面 的 错误 。 








C 语 言 的 用 法 没有 规定 的 或 编译 器 无 法 检查 的 规则 ， 必 须 在 接口 中 
详细 说 明 。 客 户 程序 必须 遵循 这 些 规 则 ， 实 现 必 须 执行 这 些 规 则 。 接 口 
通常 会 规定 未 检查 的 运行 时 错误 (unchecked runtime error) 、 已 检查 的 
运行 时 错误 (checked runtime error) 和 异常 (exception) 。 未 检查 的 
和 已 检 查 的 运行 时 错误 是 非 预 期 的 用 户 错 误 ， 如 未 能 打开 一 个 文件 。 运 
行 时 错误 是 对 客户 程序 和 实现 之 间 契 约 的 破坏 ， 是 无 法 恢复 的 程序 
bug。 了 和 音 是 指 一 些 可 能 的 情形 ， 但 很 少 发生 。 程 序 也许 能 从 异 弟 恢 
复 。 内 存 耗 尽 就 是 一 个 例子 。 异 党 在 第 4 章 详 述 。 

















未 检查 的 运行 时 错误 是 对 客户 程序 与 实现 之 间 契 约 的 破坏 ， 而 实现 
并 不 保证 能 够 发 现 这 样 的 错误 。 如 宋 发 生 未 检查 的 运行 时 错误 ， 可 能 会 
继续 执行 ， 但 结果 是 不 可 预测 的 ， 甚 至 可 能 是 不 可 重复 的 。 好 的 接口 会 
在 可 能 的 情况 下 避免 未 检查 的 运行 时 错误 ， 但 必须 规定 可 能 发 生 的 此 类 
错误 。 例 如 ，Arith 必 须 指 明 除 以 零 是 一 个 未 检查 的 运行 时 错误 。Arith 
虽然 可 以 检查 除 以 零 的 情形 ， 但 却 不 加 处 理 使 之 成 为 未 检查 的 运行 时 错 
误 ， 这 样 接口 中 的 函数 就 模拟 了 C 语 言 内 建 的 除法 运算 符 的 行为 〈 即 ， 
除 以 零 时 其 行为 是 未 定义 的 ) 。 使 除 以 零 成 为 一 种 已 检查 的 运行 时 错 
误 ， 也 是 一 种 合理 的 方案 。 
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保证 会 发 现 这 种 错误 。 这 种 错误 表明 ， 客 户 程序 未 能 遵守 契约 对 它 的 约 
束 ， 客 户 程序 有 责任 避免 这 类 错误 。Stack 接 口 规定 了 三 个 已 检查 的 运 
行 时 错误 : 








C1) 同 该 接口 中 的 任何 例 程 传递 空 的 Stack_T 类 型 的 指针 ; 
(2) 传递 给 Stack_free 的 Stack_T 指 针 为 NULL 指 针 ; 


(3) 传递 给 Stack_pop 的 栈 为 空 。 





接口 可 以 规定 异常 及 引发 异常 的 条 件 。 如 第 4 章 所 述 ， 客 户 程 序 可 
以 处 理 异 党 并 采取 校正 措施 。 未 处 理 的 异常 (unhandled exception) 被 
当做 是 已 检查 的 运行 时 错误 。 接 口 通常 会 列 出 自身 引发 的 异常 及 其 导入 
的 接口 引发 的 异常 。 例 如 ，Stack 接 口 导 入 了 了 Mem 接口 ， 它 使 用 后 者 来 
分 配 内 存 空间 ， 因 此 它 规定 Stack_new 和 Stack_push 可 能 引发 Mem_Failed 
异常 。 本 书 中 大 多 数 接口 都 规定 了 类 似 的 已 检查 的 运行 时 错误 和 异常 。 


























在 辣 Stack 接 口 添加 这 些 之 后 ， 我 们 可 以 继续 进行 其 实现 : 


(stack.c 


Y= 
#include <stddef.h> 
#include "assert.h" 
#include "mem.h" 


#include "stack.h" 


#define T Stack_T 


(types 


18) 


(functions 


18) 


#define 指 令 又 将 TIT 定义 为 Stack_T 的 缩写 。 该 实现 披露 了 Stack_T 的 内 部 
结构 ， 它 是 一 个 结构 ， 一 个 字段 指 同一 个 链表 ， 链 表 包 含 了 栈 上 的 各 个 
指针 ， 另 一 个 字段 统计 了 指针 的 数目 。 


(types 


18) = 
struct T { 
int count; 
struct elem { 
void *x; 


struct elem *link; 


} *head; 


Stack_new 分 配 并 初始 化 一 个 新 的 T: 


(functions 


18) = 
T Stack_new(void) { 


T stk; 


NEW(stk); 
stk->count = 0; 
stk->head = NULL; 


return stk; 





NEW 是 Mem 接 口中 一 个 用 于 分 配 内 存 的 宏 。NEW(p) 为 p 指 向 的 结构 分 
配 一 个 实例 ， 因 此 Stack_new 中 使 用 它 来 分 配 一 个 新 的 Stack_ TI 结构 实 
例 。 





如 果 count 字 段 为 0，Stack_empty 返 回 1， 和 否则 返回 0: 


(functions 


18) += 

int Stack_empty(T stk) { 
assert(stk); 
return stk->count == 0; 


} 





assert(stk) 实 现 了 已 检查 的 运行 时 错误 ， 即 禁止 对 Stack 接 口 函 数 中 的 
Stack_T 类 型 参数 传递 NULL 指 针 。assert(e) 是 一 个 断言 ， 声 称 对 任何 表 
达 式 e，e 都 应 该 是 非 零 值 。 如 果 e 非 零 ， 它 什么 都 不 做 ， 人 否则 将 中 止 程 
序 执行 。assert 是 标准 库 的 一 部 分 ， 但 第 4 章 的 Assert 接 口 定义 了 自身 的 
assert， 其 语义 与 标准 库 类 似 ， 但 提供 了 优雅 的 程序 终止 机 制 。assert 用 
于 所 有 已 检查 的 运行 时 错误 。 








Stack_push 和 Stack_pop 分 别 在 stk->head 链 表 头 部 添加 和 删除 元 素 : 


(functions 


18) += 
void Stack_push(T stk, void *x) { 


struct elem *t; 


assert(stk); 
NEW(t); 
t->x = X; 


t->link = stk->head; 


stk->head = t; 


stk->count++; 


void *Stack_pop(T stk) { 
void *x; 


struct elem *t; 


assert(stk); 
assert(stk->count > 0); 
t = stk->head; 
stk->head = t->link; 
stk->count--; 

x = t->x; 

FREE(t); 


return x; 


FREE: MemH +RMATINZE, CRBC E Bs Al AE Ze IB, 
并 将 该 参数 设置 为 NULL 指 针 ， 这 与 Stack_free 的 做 法 同 理 ， 都 是 为 了 避 
免 悬 挂 指针 。Stack_free 也 调用 了 FREE: 


(functions 


18) += 


void Stack_free(T *stk) { 


struct elem *t, *u; 


assert(stk && *stk); 

for (t = (*stk)->head; t; t =u) { 
u = t->link; 
FREE(t); 

} 

FREE(*stk); 








该 实现 披露 了 一 个 未 检查 的 运行 时 错误 ， 本 书 中 所 有 的 ”ADT 接 口 
都 会 受到 该 错误 的 困扰 ， 因 而 并 没有 在 接口 中 指明 。 我 们 无 法 保证 传递 
到 Stack_push、Stack_pop、Stack_empty 的 Stack_T 值 和 传递 到 Stack_free 
的 Stack_T* 值 都 是 Stack_new 返 回 的 有 效 的 Stack_T 值 。 习 题 2.3 针 对 该 问 
题 进行 了 探讨 ， 给 出 一 个 部 分 解决 方案 。 








还 有 两 个 未 检查 的 运行 时 错误 ， 其 效应 可 能 更 为 微妙 。 本 书 中 许多 
ADT 通 过 void 指 针 通 信 ， 即 存储 并 返回 void 指 针 。 在 任何 此 类 ADT 中 ， 
AFP RET CRIA KAI TR ET) 都 是 未 检查 的 运行 时 错误 。void 指 针 
是 一 个 类 属 指针 (generic ”pointer， 通 用 指针 ) ， 类 型 为 void* 的 变量 可 
以 容纳 指 同 一 个 对 象 的 任意 指针 ， 此 类 指针 可 以 指 辣 预定 义 类 型 、 结 构 
和 指针 。 但 函数 指针 不 同 。 虽 然 许 多 C 编 译 器 允许 将 函数 指针 赋值 给 
void 指 针 ， 但 不 能 保证 void 指 针 可 以 容纳 函数 指针 山 。 





通过 void 指针 传递 任何 对 象 指 针 都 不 会 损失 信息 。 例 如 ， 在 执行 下 
列 代码 之 后 ， 
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类 型 系统 。 例 如 ， 在 执行 下 列 代码 之 后 ， 


S 


我 们 不 能 保证 qd 与 p 是 相等 的 ， 或 者 根据 类 型 S 和 D 的 对 齐 约束 ， 也 不 能 
保证 q 是 一 个 指向 类 型 D 对 象 的 有 效 指针 。 在 标准 C 语 言 中 ，void 指 针 和 
char 指 针 具 有 相同 的 大 小 和 表示 。 但 其 他 指针 可 能 小 一 些 ， 或 具有 不 同 
的 表示 。 因 而 ， 如 果 S 和 D 是 不 同 的 对 象 类 型 ， 那 么 在 ADT 中 存储 一 个 
指 癌 S 的 指针 ， 将 该 指针 返回 到 一 个 指向 类 型 D 的 指针 中 ， 这 是 一 个 未 
检查 的 运行 时 错误 。 








在 ADT 函 数 并 不 修改 被 指 回 的 对 象 时 ， 程 序 员 可 能 很 容易 将 不 透明 
指针 参数 声明 为 const。 例 如 ，Stack_empty 可 能 有 下 述 编 写 方式 。 





int Stack_empty(const T stk) { 
assert(stk); 
return stk->count == 0; 


} 


const 的 这 种 用 法 是 不 正确 的 。 这 里 的 意图 是 将 stk 声 明 为 一 个 “ 指 同 struct 
TI 的 常量 实例 的 指针 ”， 因 为 Stack_empty 并 不 修改 *stk。 但 const T stk 
stk 声 明 为 一 个 “常量 指针 ， 指 癌 一 个 struct T 实 例 ”， 对 T 的 typedef 将 struct 
T* 打 包 到 一 个 类 型 中 ， 这 一 个 指针 类 型 成 为 了 const 的 操作 数 内 。 无 论 
对 Stack_empty 还 是 其 调用 者 ，const T ”stk 都 是 无 用 的 ， 因 为 在 C 语 言 
中 ， 所 有 的 标量 包括 指针 在 函数 调用 时 都 是 传 值 的 。 无 论 有 没有 const 限 
定 符 ，Stack_empty 都 无 法 改变 调用 者 的 实 参 值 。 


用 struct Tx 代 车工 ， 可 以 避免 这 个 问题 : 


int Stack_empty(const struct T *stk) { 
assert(stk); 


return stk->count == 0; 


} 


这 个 用 法 说 明了 为 什么 不 应 该 将 const 用 于 传递 给 ADT 的 指针 : const 披 
露 了 有 关 实 现 的 一 些 信息 ， 因 而 限制 了 可 能 性 。 对 于 Stack 的 这 个 实现 
而 言 ， 使 用 const 不 是 问题 ， 但 它 排除 了 其 他 同样 可 行 的 方案 。 假 定 某 个 
实现 预期 可 重用 栈 中 的 元 素 ， 因 而 延迟 对 栈 元 素 的 释放 操作 ， 但 会 在 调 
用 Stack_empty 时 释放 它们 。Stack_empty 的 这 种 实现 需要 修改 *stk， 但 
为 *stk 声 明 为 const 而 无 法 进行 修改 。 本 书 中 的 ADT 都 不 使 用 const。 
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2.5 X 


本 书 中 的 接口 的 大 多 数 实现 所 使 用 的 算法 和 数据 结构 ， 其 平均 情况 
运行 时 间 不 会 超过 N 〈 输 入 规模 ) 的 线性 函数 ， 大 多 数 算 法 都 能 够 处 理 
大 量 的 输入 。 无 法 处 理 大 量 输入 的 接口 ， 或 者 性 能 可 能 成 为 重要 影响 因 
素 的 接口 ， 可 以 规定 性 能 标准 (performance criteria) 。 实 现 必 须 满足 这 
些 标准 ， 客 户 程序 可 以 预期 性 能 能 够 达到 标准 的 规定 《但 不 会 比 标准 好 
EBD) o 








本 书 中 所 有 的 接口 都 使 用 了 简单 但 高 效 的 算法 。 在 N 较 大 时 ， 更 复 
杂 的 算法 和 数据 结构 可 能 有 更 好 的 性 能 ， 但 N 通 常 比较 小 。 大 多 数 实现 
都 只 使 用 基本 的 数据 结构 ， 如 数组 、 链 表 、 哈 希 表 、 树 和 这 些 数 据 结构 
的 组 合 。 








本 书 中 的 ADT， 除 少量 之 外 全 部 使 用 了 不 透明 指针 ， 因 此 需要 使 用 
诸如 Stack_empty 之 类 的 函数 来 访问 隐藏 在 实现 背后 的 字段 。 调 用 函数 
而 不 是 直接 访问 字段 会 带 来 开销 ， 但 它 对 实际 应 用 程序 性 能 的 影响 通常 
都 是 可 忽略 的 。 这 种 做 法 在 可 靠 性 和 捕获 运行 时 错误 的 机 会 方面 带 来 的 
改进 是 可 观 的 ， 远 超 性 能 方面 的 轻微 代价 。 








如 果 客 观 的 测量 表明 确实 有 必要 改进 性 能 ， 那 么 这 种 改进 不 应 该 改 
变 接 口 ， 例 如 ， 可 通过 定义 宏 进行 。 当 这 种 方法 不 可 行 时 ， 最 好 创建 一 
个 新 接口 并 说 明 其 性 能 方面 的 优势 ， 而 不 是 改变 现存 的 接口 《这 将 使 所 
有 的 客户 程序 无 效 ) 。 








2.6 扩展 阅读 


目 20 世 纪 50 年 代 以 来 ， 过 程 和 函数 库 的 重要 性 已 经 是 公认 的 。 
[Parnas 1972] 一 文 是 一 篇 典型 的 论文 ， 讨 论 了 如 何 将 程序 划分 为 模块 。 
该 论文 的 历史 已 经 将 近 40 年 ， 但 当今 的 程序 员 仍 然 面 临 大 该 文 所 考虑 的 


问题 。 





C 程 序 员 每 天 都 使 用 接口 : C 库 是 15 个 接口 的 集合 。 标 准 输入 输出 
接口 ， 即 stdio.h， 定 义 了 一 个 ADT FILE， 以 及 对 FILE 指 针 的 操作 。 
[Plauger，1992] 一 书 详细 描述 了 这 15 个 接口 及 适当 的 实现 ， 其 叙述 方式 
大 体 上 类 似 于 本 书 讨论 一 组 接口 和 实现 的 方式 。 








Modula-3 是 一 种 相对 较 新 的 语言 ， 从 语言 层面 文 持 接口 与 实现 相 分 
离 ， 本 书 中 使 用 的 基于 接口 的 术语 即 源 自 该 语言 [INelson，1991]。 未 检 
查 和 已 检查 的 运行 时 错误 的 概念 ， 和 ADT 的 IT 表示 法 ， 都 是 借鉴 Modula- 
3。[Harbison，1992] 是 介绍 Modula-3 的 一 本 教科 书 。[Horning 等 人 ， 
1993] 一 书 描述 了 其 Modula-3 系 统 中 的 核心 接口 。 本 书 中 一 些 接口 改编 
自 该 书 中 的 接口 。[Roberts，1995] 一 书 使 用 了 基于 接口 的 设计 ， 作 为 讲 
授 计 算 机 科学 入 门 课 程 的 编排 方式 。 





失言 的 重要 性 是 公认 的 ， 在 一 些 语言 如 Modula-3 和 Eiffel [Meyer, 
1992] 中 ， 断 言 机 制 是 内 建 在 语言 中 的 。[Maguire，1993] 一 书 用 一 整 章 
的 篇 幅 讨 论 C 程 序 中 断言 的 使 用 。 


熟悉 面 问 对 象 编程 的 程序 员 可 能 认为 ， 本 书 中 大 部 分 ADT 都 可 以 用 
面 问 对 象 程 序 设 计 语 言 中 的 对 象 实 现 〈 可 能 实现 得 更 好 ) ， 如 C++[Ellis 


and Stroustrup，1990] 和 Modula-3。[Budd，1991] 一 书 是 面向 对 象 程序 设 
计 方 法 学 的 入 门 介绍 ， 还 包括 一 些 面 同 对 象 程序 设计 语言 如 C++ 的 内 
容 。 本 书 中 说 明 的 接口 设计 原理 同样 适用 于 面向 对 象 语 言 。 例 如 ， 用 
C++ 语言 重 写本 书 中 的 ADT， 对 从 C 语 言 切 换 到 C++ 的 程序 员 来 说 是 一 
个 很 有 用 的 练习 过 程 。 











STL (C++ 标 准 模板 库 ，Standard Template Library) 提供 了 与 本 书 
所 述 类 似 的 ADT。STIL 充 分 利用 了 C++ 模 板 来 针对 具体 类 型 实例 化 
ADT (参见 [Musser and Saini，1996]) 。 例 如 ，STL 为 vector 类 型 提供 了 
一 个 模板 ， 可 针对 int、string 等 类 型 分 别 实例 化 出 对 应 的 vector 类 型 。 
STL 还 提供 一 套 函 数 ， 来 处 理由 模板 生成 的 类 型 。 


2.7 Je 


2.1 原本 可 使 用 预 处 理 器 宏和 条 件 编 译 指 令 如 区 f， 来 指定 
Arith_div 和 Arith_mod 中 如 何 处 理 除 法 的 售 入 操作 。 解 释 为 什么 
对 -13/5==-2 的 显 式 测试 是 实现 上 述 判断 的 更 好 的 方法 。 





2.2 ”对 于 Arith_div 和 Arith_mod 来 说 ， 仪 当 用 于 编译 arith.c 的 编译 器 
执行 算术 操作 的 方式 与 Arith_div 和 Arith_mod 被 调用 时 的 目标 机 器 相同 
时 ， 这 两 个 函数 中 所 用 的 -13/5==-2 测 试 才 是 有 效 的 。 但 这 个 条 件 可 能 会 
不 成 立 ， 例 如 ， 如 果 arith.c 由 运行 在 机 器 X 上 交叉 编译 器 编译 ， 针 对 机 
器 Y 生 成 代码 。 不 使 用 条 件 编译 指令 ， 请 改正 arith.c， 使 得 交叉 编译 生 
成 的 代码 也 保证 可 以 工作 。 





23 如同 本 书 中 所 有 的 ADT，Stack 接 口 也 省 略 了 下 述 规格 说 
明 : “将 外 部 的 Stack_T 传 递 给 本 接口 中 任何 例 程 ， 都 是 未 检查 的 运行 时 
错误 ”。 外 部 的 Stack_T， 意 味 着 不 是 由 Stack_new 产 生 的 Stack_T。 修 正 
stack.c， 使 其 可 以 在 某 些 情况 下 检查 到 这 种 错误 。 例 如 ， 一 种 方法 是 问 
Stack_T 结 构 添 加 一 个 字段 ， 对 于 Stack_new 返 回 的 Stack_T， 该 字段 包含 
一 个 特有 的 位 模式 。 





2.4 ”通常 有 可 能 会 检测 到 某 些 无 效 指针 。 例 如 ， 如 果 一 个 非 空 指 
针 指 定 的 地 址 在 客户 程序 地 址 空间 之 外 ， 那 么 该 指针 就 是 无 效 的 ， 而 且 
指针 通常 会 受到 对 齐 约束 ， 例 如 ， 在 某 些 系统 上 ， 指 癌 double 的 指针 ， 
指 同 的 地 址 必定 是 8 的 倍数 。 请 设计 一 个 特定 于 系统 的 宏 jisBadPtr(p)， 在 
p 为 无 效 指针 时 为 1， 这 样 assert(pt 之 类 的 断言 都 可 以 替换 为 类 似 assert 
(!isBadPtr(ptr)) HY bt & o 








2.5 “对 栈 来 说 ， 有 许多 可 行 的 接口 。 为 Stack 接 口 设 计 并 实现 一 些 
备 选 方案 。 例 如 ， 一 种 方案 是 再 为 Stack_new 增 加 一 个 参数 ， 用 于 指定 
栈 的 最 大 容量 。 





[1] C 语 言 中 数据 指针 和 济 数 指针 的 位 宽 应 该 是 相同 的 ， 但 C++ 中 的 
成 员 未 数 指针 可 能 有 不 同 。 一 一 译 者 注 





[2] const 修 饰 指 针 ， 指 针 就 是 常量 ; const 修 饰 结构 ， 结 构 实 例 就 
是 常量 。 译 者 注 





S35 原子 


原子 Catom) 是 一 个 指针 ， 指 疝 一 个 唯一 的 、 不 可 变 的 序列 ， 订 
列 中 包含 零 或 多 个 字 节 〈 字 市 值 任意 ) 。 大 多 数 原 子 都 指向 0 结尾 字符 
串 ， 但 也 可 以 是 指向 任 一 字 节 序列 的 指针 。 任 一 原子 都 只 会 出 现 一 次 ， 
这 也 是 它 被 称 为 原子 的 原因 。 如 末 两 个 原子 指向 相同 的 位 置 ， 那 么 二 者 
是 相同 的 。 原 子 的 一 个 优点 是 ， 只 通过 比较 两 个 指针 ， 即 可 比较 两 个 字 
节 序 列 是 否 相 等 。 使 用 原子 的 为 一 个 优点 是 节省 空间 ， 因 为 任 一 序列 都 
只 会 出 现 一 次 。 

















在 数据 结构 中 ， 如 宋 使 用 任意 字 节 的 序列 作为 索引 《而 不 使 用 整 
数 ) ， 那 么 通常 将 原子 用 作 键 。 第 8 章 和 第 9 章 中 的 表 和 集合 就 是 例子 。 





3.1 接口 


Atom 接 口 很 简单 : 


(atom.h 


= 
#ifndef ATOM_INCLUDED 


#define ATOM_INCLUDED 


extern int Atom_length(const char *str); 
extern const char *Atom_new (const char *str, int len); 
extern const char *Atom_string(const char *str); 


extern const char *Atom_int (long n); 


#endif 


Atom newhj AAE AeA le UST, ARAN 
数目 。 如 果 必 要 的 话 ， 它 将 该 序列 的 一 个 副本 添加 到 原子 表 并 返回 该 原 
子 ， 即 指 同 原子 表 中 该 序列 副本 的 指针 。Atom_new 从 不 返回 NULL 指 

针 。 在 原子 创建 后 ， 它 在 客户 程序 的 整个 执行 时 间 内 都 存在 。 原 子 总 是 
以 零 字 符 结 束 ，Atom_new 在 必要 时 会 添加 零 字 符 。 











Atom_string 与 Atom_new 类 似 ， 它 迎合 了 将 字符 串 用 作 原 子 的 通常 





用 法 。 该 函数 接受 一 个 0 结尾 字符 串 作 为 参数 ，《〈 如 有 必要 ) 将 该 字符 
串 的 一 个 副本 添 加 到 原子 表 ， 并 返回 该 原子 。Atom_int 返 回 对 应 于 以 字 
符 串 表示 长 整数 n 的 原子 ， 这 是 另 一 种 种 见 的 用 法 。 最 后 ，Atom_length 
返回 其 参数 原子 的 长 度 。 











向 本 接口 中 的 任何 函数 传递 NULL 指 针 、 向 Atom_new 传 递 的 len 参 
数 为 负 值 或 者 向 Atom_length 传 递 的 指针 并 非 原 子 ， 这 些 都 是 已 检查 的 
运行 时 错误 。 修 改 原 子 指向 的 字 节 ， 属 于 未 检查 的 运行 时 错误 。 
Atom_length 的 执行 时 间 与 原子 的 数目 成 正比 。Atom_new、Atom_string 
和 Atom_int 都 可 能 引发 Mem_Failed 寞 党。 











3.2 ”实现 


Atom 的 实现 需要 维护 原子 表 。Atom_new、Atom_string 和 Atom_int 
搜索 原子 表 并 可 能 同 其 中 添加 新 元 素 ， 而 Atom_length 只 是 搜索 原子 
Ro 


(atom.c 


) = 


(includes 


25) 


(macros 


28) 
(data 


26) 


(functions 


25) 


(includes 


25) = 


#include "atom.h" 


Atom_string 和 Atom_int 可 以 在 不 了 解 原子 表 表 示 细 节 的 情况 下 实 
现 。 例 如 ，Atom_string 只 是 调用 了 Atom_new: 


(functions 


25) = 
const char *Atom_string(const char *str) { 
assert(str); 


return Atom_new(str, strlen(str)); 


(includes 


25) += 
#include <string.h> 


#include "“assert.h" 


Atom_int 首 先 将 其 参数 转换 为 一 个 字符 串 ， 然 后 调用 Atom_new: 


(functions 


25) += 

const char *Atom_int(long n) { 
char str[43]; 
char *s = str + sizeof str; 


unsigned long m; 


if (n == LONG_MIN) 
m = LONG_MAX + 1UL; 
else if (n < 0) 


m = -n; 


do 


*--S = m%10 + '0'; 


while ((m /= 10) > 0); 
if (n < 0) 
wees 二 1 Li 


return Atom_new(s, (str + sizeof str) - s); 


(includes 


25) += 


#include <limits.h> 
Atom_int 必 须要 处 理 二 进 制 补 码 表示 的 整数 的 非 对 称 范围 ， 以 及 C 


语言 的 除法 和 模 运 算 的 二 义 性 。 无 符号 数 的 除法 和 模 运 算是 展 定 义 的 ， 
因此 Atom_int 可 以 通过 使 用 无 符号 运算 来 避免 带 符 号 运算 符 的 二 义 性 。 


























对 于 有 符号 的 最 小 负 值 长 整数 来 说 ， 其 绝对 值 是 无 法 表示 的 ， 因 为 
在 二 进 制 编码 系统 中 ， 负 数 比 正 数 多 一 个 。 因 而 ，Atom_new 首 先 检验 
这 种 单一 的 异常 情况 ， 然 后 将 其 参数 的 绝对 值 赋值 给 无 符号 长 整数 m。 
LONG_MAX 的 值 定 义 在 标准 头 文 件 limits.h 中 。 


接 下 来 的 循环 从 右 到 左 建立 m 的 十 进 制 字符 串 表 示 ， 它 首先 计算 最 
右 侧 的 位 ， 然 后 将 m 除 以 10， 依 次 类 推 ， 直 至 mm 变 为 零 。 随 独 每 个 位 的 
得 出 ， 相 应 的 字符 存储 在 --s 指 向 的 位 置 ， 这 相当 于 在 str 中 逆向 移动 指针 
s 的 位 置 。 如 果 n 是 负 值 ， 还 需要 在 字符 串 开 始 处 存储 一 个 负 号 。 








当 转 换 完成 时 ，s 指 向 所 要 的 字符 串 ， 该 字符 串 包含 &str[43]-s 个 字 
符 。str 数 组 可 容纳 43 个 字符 ， 在 任何 机 器 上 这 都 足以 容纳 任何 整数 的 十 
进 制 表示 。 例 如 ， 假 定 long 类 型 的 位 宽 为 128 个 bit。 对 任意 的 128 位 有 符 
号 整数 来 说 ， 它 在 八进制 下 的 字符 串 表 示 可 以 放 到 128/3+1-43 个 字符 中 
叫 。 十 进 制 表示 用 的 位 数 不 会 比 八进制 表示 更 多 ， 因 此 43 个 字符 是 足够 
的 。 





str 定 义 中 的 43， 就 是 所 谓 “ 魔 数 ”(magic number) 的 一 个 例子 ， 通 
第 更 好 的 代码 风格 要 求 为 这 样 的 值 定 义 一 个 符号 名 ， 以 确保 代码 中 各 处 
使 用 的 值 是 相同 的 。 但 在 这 里 ， 该 值 只 出 现 一 次 ， 而 且 每 次 引用 该 值 时 
都 使 用 了 sizeof 运 算 符 。 定 义 一 个 符号 名 可 能 使 代码 更 容易 读 ， 但 也 会 
使 代码 更 长 且 扰 乱 命名 空间 。 本 书 中 ， 仅 当 相 关 值 出 现 多 次 时 ， 或 者 该 
值 是 接口 的 一 部 分 时 ， 才 定义 符号 名 ， 下 文中 哈 希 表 buckets 的 长 度 
(2048) ， 是 该 约定 的 男 一 个 例子 。 











对 原子 表 来 说 ， 选 择 哈 希 表 作为 数据 结构 是 显然 的 。 这 里 的 哈 希 表 
征 一 个 指针 数组 ， 每 个 指针 指 同一 个 链表 ， 链 表 中 的 每 个 表 项 保存 了 一 
RF: 


(data 


26) = 
static struct atom { 
struct atom *link; 


int len; 


char *str; 


} *buckets[2048]; 


发 源 自 buckets[i] 的 链表 保存 了 那些 散 列 到 i 的 原子 。 链 表 项 的 link 字 段 指 
向 链 表 中 下 一 个 表 项 ，len 字 段 保 存 了 字 节 序列 的 长 度 ， 而 str 字 段 指 辐 
序列 本 号 。 例 如 ， 在 字 长 32 比 特 、 字 符 位 宽 8 比 特 的 小 端 序 计 算 机 上 ， 
Atom_string("an atom") 将 分 配 如 图 3-1 所 示 的 struct atom， 其 中 下 划 线 字 
RE O 表示 空格 。 每 个 链表 项 的 大 小 都 刚好 足够 容纳 其 字 市 序列 。 图 
3-2 给 出 了 哈 希 表 的 整体 结构 。 








图 3-1 表示 原子 的 struct atom 实 例 的 “小 端 序 ”布局 
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A3-2 哈 希 表 的 结构 


Atom_new 对 序列 str[0..len-1] (或 空 序列 ， 如 果 ]len 为 零 ) 计算 一 个 
哈 希 码 ， 将 该 哈 希 码 对 哈 希 桶 的 数目 取 模 得 到 一 个 索引 值 ， 并 搜索 该 索 
引 值 对 应 的 哈 希 桶 《〈 即 链表 ) 。 如 果 函 数 发 现 str[0..len-1] 已 经 在 表 中 ， 
就 只 返回 对 应 的 原子 : 


(functions 


25) += 


const char *Atom_new(const char *str, int len) { 
unsigned long h; 
int 1; 


struct atom *p; 


assert(str); 
assert(len >= 0); 


(h — hash 


str[O..len-1] 29) 
h %= NELEMS(buckets); 
for (p = buckets[h]; p; p = p->link) 
if (len == p->len) { 
for (i = 0; i < len && p->str[i] == str[i]; ) 
i++; 
if (i == len) 
return p->str; 


} 


(allocate a new entry 


28) 


return p->str; 


(macros 


28) = 


#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) 


NELEMS 的 定义 说 明了 一 种 常见 的 C 语 言 惯用 法 : 数组 中 元 素 的 数目 ， 
就 是 数组 的 大 小 除 以 每 个 数组 元 素 的 大 小 。sizeof 是 一 个 编译 时 运算 
符 ， 因 此 该 计算 只 适用 于 在 编译 时 大 小 已 知 的 数组 。 如 该 定义 所 示 ， 安 
参数 用 斜体 印刷 ， 以 标明 宏 功 能 体 中 使 用 宏 参 数 之 处 。 


如 果 str[0..len-1] 不 在 表 中 ，Atom_new 分 配 一 个 struct _ atom 和 足够 的 
附加 空间 来 容纳 该 序列 ， 将 str[0..len-1] 复 制 到 分 配 的 附加 空间 中 ， 并 将 
新 的 表 项 添加 到 buckets[h] 链 表 的 头 部 ， 从 而 将 该 序列 添加 到 哈 希 表 
中 。 该 链表 项 也 可 以 添加 到 链表 的 尾部 ， 但 添加 到 链表 头 部 比较 简单 。 








(allocate a new entry 


28) = 

p = ALLOC(sizeof (*p) + len + 1); 
p->len = len; 

p->str = (char *)(p + 1); 

if (len > 0) 


memcpy(p->str, str, len); 


p->str[len] = '\0'; 
p->link = buckets[h]; 
buckets[h] = p; 


(includes 


25) += 


#include "mem.h" 


ALLOC 是 Mem 接 口 用 于 分 配 内 存 的 主要 函数 ， 它 模仿 了 标准 库 函 数 
malloc: 其 参数 是 所 需 分 配 的 字 市 数 。Atom_new 不 能 使 用 Mem 接 口 的 
NEW “在 Stack_push 中 说 明 过 ) ， 因 为 需要 分 配 的 字 节 数 取 决 于 len， 仪 
当 需 要 分 配 的 字 节 数 在 编译 时 已 知 ， 才 能 应 用 NEW。 上 述 对 ALLOC 的 
调用 ， 同 时 为 atom 结 构 和 字 节 序列 分 配 了 空间 ， 字 节 序 列 紧 接着 结构 之 
后 存储 。 





对 传递 给 Atom_new 的 序列 进行 散 列 ， 就 是 计算 出 表示 该 序列 的 一 
个 无 符号 数 。 理 想 情 况 下 ， 对 N 个 输入 序列 ， 所 算得 的 哈 希 码 应 该 均匀 
地 分 布 在 0 到 NELEMS(buckets)-1 的 范围 内 。 如 果 它 们 的 分 布 确实 如 此 ， 
那么 buckets 中 的 每 个 链表 将 有 N/NELEMS(buckets) 个 表 项 ， 搜 索 一 个 字 
节 序 列 的 平均 时 间 将 是 N/(2*NELEMS(buckets))。 如 果 (假定 )N 小 于 
2*NELEMS(buckets)， 那 么 搜索 时 间 实 质 上 是 一 个 常数 。 


散 列 是 一 个 已 经 充分 研究 过 的 主题 ， 有 许多 好 的 哈 希 函数 可 用 。 
Atom_new 使 用 一 个 简单 的 查 表 算 法 : 


(h — hash 


str[0..len-1] 29) = 
for (h = 0, 1 = 0; i < len; itt) 


h = (h<<1) + scatter[(unsigned char)str[i]]; 


scatter 古 一 个 256 项 的 数组 ， 它 将 字 节 值 映射 到 随机 数 ， 这 些 随机 数 是 通 
过 调用 标准 库 函 数 rand 生 成 的 。 经 验 表 明 ， 这 种 简单 的 方法 有 助 于 使 哈 
希 值 分 布 更 均匀 。 将 sr 回转 换 为 无 符号 字符 可 以 避免 C 语 言 有 关 “ 普 

通 ” 字 符 的 二 义 性 : 字符 可 以 是 有 符号 或 无 符号 的 。 如 果 不 转 换 ， 在 使 
用 带 符号 字符 的 机 器 上 ， 超 过 127 的 str[i 值 将 产生 负 的 索引 值 。 





(data 


26) += 
static unsigned long scatter[] = { 
2078917053, 143302914, 1027100827, 1953210302, 755253631, 20026 
1405390230, 45248011, 1099951567, 433832350, 2018585307, 438263 
813528929, 1703199216, 618906479, 573714703, 766270699, 2756800 
1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 163 
980071615, 1011597961, 643279273, 1315461275, 157584038, 106984 
471560540, 89017443, 1213147837, 1498661368, 2042227746, 196840 
1353778505, 1300134328, 2013649480, 306246424, 1733966678, 1884 


744509763, 400011959, 1440466707, 1363416242, 973726663, 592537 
1639096332, 336563455, 1642837685, 1215013716, 154523136, 59353 
704035832, 1134594751, 1605135681, 1347315106, 302572379, 17627 
269676381, 774132919, 1851737163, 1482824219, 125310639, 174648 
1303742040, 1479089144, 899131941, 1169907872, 1785335569, 4856 
907175364, 382361684, 885626931, 200158423, 1745777927, 1859353 
259412182, 1237390611, 48433401, 1902249868, 304920680, 2029565 
348303940, 1008956512, 1337551289, 1953439621, 208787970, 16401 
1568675693, 478464352, 266772940, 1272929208, 1961288571, 39208 
871926821, 1117546963, 1871172724, 1771058762, 139971187, 15090 
109190086, 1047146551, 1891386329, 994817018, 1247304975, 14896 
706686964, 1506717157, 579587572, 755120366, 1261483377, 884508 
958076904, 1609787317, 1893464764, 148144545, 1415743291, 21022 
1788268214, 836935336, 433233439, 2055041154, 2109864544, 24703 
299641085, 834307717, 1364585325, 23330161, 457882831, 15045565 
1532354806, 567072918, 404219416, 1276257488, 1561889936, 16515 
618454448, 121093252, 1010757900, 1198042020, 876213618, 124757 
2082550272, 1834290522, 1734544947, 1828531389, 1982435068, 100 
1783300476, 1623219634, 1839739926, 69050267, 1530777140, 18021 
316088629, 1830418225, 488944891, 1680673954, 1853748387, 94682 
1037746818, 1238619545, 1513900641, 1441966234, 367393385, 9283 
946006977, 985847834, 1049400181, 1956764878, 36406206, 1925613 
2081522508, 2118956479, 1612420674, 1668583807, 1800004220, 144 
523904750, 1435821048, 923108080, 216161028, 1504871315, 306401 
2018281851, 1820959944, 2136819798, 359743094, 1354150250, 1843 
1306570817, 244413420, 934220434, 672987810, 1686379655, 130161 
1601294739, 484902984, 139978006, 503211273, 294184214, 1763842 


281341425, 228223074, 147857043, 1893762099, 1896806882, 194786 
1193650546, 273227984, 1236198663, 2116758626, 489389012, 59358 
275676551, 360187215, 267062626, 265012701, 719930310, 16212128 
2108097238, 2026501127, 1865626297, 894834024, 552005290, 14045 
48964196, 5816381, 1889425288, 188942202, 509027654, 36125855, 
365326415, 790369079, 264348929, 513183458, 536647531, 13672163 
313561074, 1730298077, 286900147, 1549759737, 1699573055, 77628 
2143346068, 1975249606, 1136476375, 262925046, 92778659, 185640 
1884137923, 53392249, 1735424165, 1602280572 


}; 


Atom_length 无 法 散 列 其 参数 ， 因 为 其 长 度 是 未 知 的 。 但 该 参数 必 
须 是 一 个 原子 ， 因 此 Atom_length 只 需 遇 历 buckets 中 的 的 各 个 链表 ， 一 
一 比较 指针 即 可 。 如 果 找 到 该 原子 ， 则 返回 其 长 度 : 





(functions 


25) += 
int Atom_length(const char *str) { 
struct atom *p; 


int 1; 


assert(str); 
for (i = 0; i < NELEMS(buckets); i++) 


for (p = buckets[i]; p; p = p->link) 


if (p->str == str) 

return p->len; 
assert(0); 
return 0; 


} 





assert(0) 实 现 了 一 个 已 检查 的 运行 时 错误 ， 即 Atom_length 必 须 只 对 原子 
调用 ， 而 不 能 对 指 同 其 他 字符 串 的 指针 进行 调用 。assert(0) 也 用 于 指明 
- 些 假 定 不 会 发 生 的 情况 ， 即 所 谓 “ 不 可 能 发 生 ” 的 情况 。 








3.3 ”扩展 阅读 


原子 已 经 在 LISP 中 长 期 使 用 ， 这 也 是 其 名 称 的 来 源 ， 它 在 字符 串 处 
理 语言 中 也 有 很 久 的 使 用 历史 ， 如 SNOBOL4 实 现 的 字符 冲 几 乎 刚好 如 
本 章 所 述 [Griswold，1972]。C 编 译 右 lcc [Fraser and Hanson，1995] 有 一 
个 类 似 于 Atom 的 模块 ， 它 是 Atom 的 前 任 实现 。lcc 将 表示 源 程序 中 所 有 
标识 符 和 常数 的 字符 串 都 存储 在 一 个 表 中 ， 从 来 不 会 释放 。 这 样 做 从 未 
消耗 太 多 内 存 ， 因 为 与 源 程序 的 规模 相 比 ，C 程 序 中 不 同 字符 串 的 数目 
非常 少 。 


[Sedgewick，1990] 和 [Knuth，1973b] 两 书 详细 描述 了 散 列 ， 并 给 出 
了 编写 展 好 的 哈 希 函数 的 指导 原则 。Atom Mlee) 中 使 用 的 哈 希 函数 
是 Hans Boehm 建 议 的 。 


3.4 习题 


3.1 大 多 数 教科 书 推荐 将 buckets 的 容量 设置 为 素数 。 使 用 素数 和 
良好 的 哈 希 函数 ， 通 常会 使 buckets 中 的 链表 长 度 具 有 更 好 的 分 布 。 
Atom 使 用 了 2 的 过 作为 buckets 的 容量 ， 这 种 做 法 有 时 被 明确 地 作为 “ 反 
面 典型 引用。 编写 一 个 程序 来 生成 或 恋 入 《假定 ) 10000 个 有 代表 性 的 
字符 串 ， 并 测量 Atom_new 的 速度 和 哈 希 表 中 各 个 链表 长 度 的 分 布 。 接 
下 来 改变 buckets， 使 之 包含 2039 项 〈 小 于 2048 的 最 大 素数 ) ， 重 复 上 述 
测量 。 使 用 素数 有 改进 吗 ? 读者 的 结论 在 多 大 程度 上 取决 于 你 用 来 测试 
的 具体 机 器 ? 








3.2 得 阅 文献 寻找 更 好 的 哈 希 函数 ， 可 能 的 来 源 包括 区 nuth， 
1973b] 一 书 、 算 法 和 数据 结构 方面 类 似 的 教科 书 及 其 引用 的 论文 、 以 及 
编译 器 方面 的 教科 书 ， 如 [Aho, Sethi and UllIman，1986] 一 书 。 演 试 这 些 
函数 并 测量 其 改进 情况 。 








3.3 ”解释 Atom_new 不 使 用 标准 C 库 函数 sttncmp 比 较 字 节 序 列 的 原 
Al. 


3.4 When itr WR Saad: 


struct atom { 
struct atom *link; 
int len; 


char str[1]; 


分 配 一 个 包含 长 度 为 lan 的 字符 串 的 struct atom 实 例 时 ， 需 要 用 
ALLOC(sizeof(*p)+len)， 这 为 ink 和]len 字 段 分 配 了 空间 ， 而 且 为 str 字 段 
分 配 的 空间 足以 容纳 lan+1 个 字 节 。 正 文中 将 str 声 明 为 指针 会 引入 一 层 
额外 的 间接 ， 这 种 方法 则 避免 了 间接 方式 所 市 来 的 时 间 和 空间 开销 。 壮 
憾 的 是 ， 这 种 “技巧 ”违反 了 C 语 言 标准 ， 因 为 客户 程序 需要 访问 超出 
str[0] 的 各 字 节 ， 这 种 访问 的 效果 是 未 定义 的 。 实 现 这 种 方法 ， 并 测量 间 
接 方式 的 开销 。 为 了 这 些 节 省 ， 是 否 值得 违反 标准 ? 











3.5 ”Atom_new 会 比较 struct _ atom 实例 的 lan 字段 与 输入 的 字 节 序列 
的 长 度 ， 以 避免 比较 长 度 不 同 的 序列 。 如 果 每 个 原子 的 哈 希 人 码 〈 而 不 是 
buckets 的 索引 ) 也 存储 在 struct _ atom 中 ， 还 可 以 比较 哈 希 码 。 实 现 并 测 
量 这 种 “改进 >”。 这 种 做 法 值得 吗 ? 

3.6 Atom_length 执 行 得 比较 慢 。 修 改 Atom 的 实现 ， 使 得 


Atom_length 的 运行 时 间 与 Atom_new 大 致 相同 。 


3.7 Atom 接口 之 所 以 演变 到 现在 的 形式 ， 是 因为 其 中 的 各 个 函数 
古 客 户 程 序 最 向 用 的 。 还 可 能 使 用 其 他 的 函数 和 设计 ， 这 里 和 后 续 的 各 
习题 将 探讨 这 些 可 能 性 。 请 实现 





extern void Atom_init(int hint); 








其 中 hint 是 对 客户 程序 预期 创建 的 原子 数目 的 估计 。 在 可 能 调用 
Atom_init 时 ， 读 者 会 添加 何 种 已 检查 的 运行 时 错误 以 约束 其 行为 ? 








3.8 ”在 对 Atom 接 口 的 扩展 中 ， 可 能 提供 几 种 函数 来 释放 原子 。 例 
如 下 述 函 数 : 


extern void Atom_free (const char *str); 


extern void Atom_reset(void); 


可 以 分 别 释 放 str 指 定 的 原子 及 所 有 原子 。 请 实现 这 些 函 数 。 不 要 起 记 指 
定 并 实现 适当 的 已 检查 的 运行 时 错误 。 





3.9 一 些 客 户 程序 开始 执行 时 ， 会 将 大 量 字 符 串 设置 为 原子 ， 供 
后 续 使 用 。 请 实现 


extern void Atom_vload(const char *str, ...); 


extern void Atom_aload(const char *strs[]); 


Atom_vload 会 将 可 变 长 度 参 数列 表 中 的 字符 串 创建 为 原子 ， 直 至 过 到 
NULL 指 针 为 止 ， 而 Atom_aload 对 一 个 指针 数组 做 同样 的 操作 〈( 即 各 数 
组 项 为 指 癌 字符 串 的 指针 ， 过 到 NULL 指 针 表 示 数 组 结束 〉。 





3.10 ”如 果 客 户 程序 承诺 不 释放 字符 串 ， 那 么 可 以 避免 复制 字符 
串 ， 对 于 字符 串 常数 来 说 这 是 一 个 简单 的 事实 。 请 实现 





extern const char *Atom_add(const char *str, int len); 


其 工作 方式 如 同 Atom_new， 但 并 不 复制 字 节 序列 。 如 果 读 者 提供 
Atom add 和 Atom free (以 及 习题 3.8 中 的 Atom_reset) ， 必 须 指定 并 实 
现 何 种 已 检查 的 运行 时 错误 ? 








[1] 这 个 不 是 很 严谨 ， 其 实 应 该 是 127/3+1=44 个 字符 ， 这 里 的 除法 
应 当 向 上 多 入 ; 应 当 不 影响 10 进 制 下 的 讨论 。 译 者 注 





S45 异常 与 断言 





程序 中 会 发 生 三 种 错误 : 用 户 错误 、 运 行 时 错误 和 异常 。 用 户 错误 
是 预期 会 太 生 的 ， 因 为 错误 的 用 户 输 入 就 可 能 会 导致 用 户 错 误 。 此 类 错 
误 的 例子 ， 包 括 命名 不 存在 的 文件 、 在 电子 表格 中 指定 格式 错误 的 数字 
以 及 回 编 译 占 提交 语法 错误 的 源 程 序 等 。 程 序 必须 预计 到 这 种 错误 并 受 
善 处 理 。 通 常 ， 必 须 处 理 用 户 错误 的 函数 会 返回 错误 码 ， 这 种 错误 是 计 
算 过 程 的 一 个 普通 组 成 部 分 。 











前 儿 章 中 描述 的 已 检查 的 运行 时 错误 ， 与 用 户 错误 相 比 ， 实 在 是 相 
隅 参 商 。 己 检查 的 运行 时 错误 不 是 用 户 错 误 。 它 们 从 来 都 古 非 预 期 的 ， 
总 是 表明 程序 出 现 了 bug。 因 而 ， 应 用 程序 无 法 从 这 种 错误 恢复 ， 而 必 
须 优雅 地 结束 。 本 书 中 的 实现 使 用 断言 Cassertion) 来 捕获 这 种 错误 。 
呈 言 的 处 理 在 4.3 节 描述 。 断 言 总 是 导致 程序 结束 ， 具 体 的 结束 方式 或 
许 取 记 于 机 器 或 应 用 程序 。 








异常 (exception) 介 平 用 户 错 误 和 程序 bug 之 间 。 异 常 是 可 能 比较 
罕见 的 错误 ,或许 是 非 预 期 的 ， 但 从 异常 恢复 也 许 是 可 能 的 。 一 些 异 常 
反映 了 机 器 的 能 力 ， 如 算术 运算 上 液 和 下 溢 以 及 栈 溢出 。 其 他 异常 表明 
操作 系统 检测 到 的 状况 ， 这 些 状 况 可 能 是 由 用 户 发 起 的 ， 如 按 下 一 
个 “中 断 ”* 键 或 写 文 件 时 过 到 写 入 错误 。 在 UNIX 系 统 中 ， 此 类 异常 通常 
由 信号 传送 ， 由 信号 处 理 程序 处 理 。 当 有 限 的 资源 用 尽 时 也 可 能 发 生 异 
和 常 ， 如 应 用 程序 内 存 不 足 时 ， 或 用 户 指定 了 过 大 的 电子 表格 文件 时 。 
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由 应 用 程序 引发 ， 由 恢复 代码 处 理 〈 如 果 能 恢复 的 话 ) RASH VE ER 
是 动态 的 : 当 一 个 异常 被 引发 时 ， 它 由 最 近 实 例 化 的 处 理 程序 处 理 。 将 
控制 权 转 移 到 处 理 程序 ， 类 似 于 非 局 部 的 goto， 实 例 化 处 理 程序 的 例 程 
HY ESS] ACS AY) PRS AEE UL o 





一 些 语言 对 实例 化 处 理 程序 和 引发 异常 ， 提 供 了 内 建 的 设施 。 在 C 
语言 中 ， 标 准 库 函数 setjmp 和 longjmp 是 建立 结构 化 的 异常 处 理 设施 的 基 
础 。 简 言 之 ，setjmp 实 例 化 一 个 处 理 程序 ， 而 longjmp 引 发 一 个 异常 。 


详细 说 明 则 需要 举 个 例子 。 假 定 函数 allocate 调 用 malloc 分 配 n 字 
节 ， 并 返回 由 malloc 返 回 的 指针 。 但 如 果 malloc 返 回 NULL 指 针 ， 这 表示 
无 法 分 配 请 求 的 空间 ，allocate 会 引发 Allocate_Failed 有 异常 。 异 名 本 身 声 
明 为 一 个 jmp_buf， 在 标准 头 文件 setjimp.h 中 : 





#include <setjmp.h> 


int Allocation_handled = 0; 


jmp_buf Allocate_Failed; 


除非 已 经 实例 化 一 个 处 理 程 序 ， 否 则 Allocation_ handled 为 零 ，allocate 在 
引发 异常 之 前 会 检查 Allocation_handled: 


void *allocate(unsigned n) { 


void *new = malloc(n); 


if (new) 


return new, 
if (Allocation_handled) 
longjmp(Allocate_Failed, 1); 


assert(0); 


在 分 配 失 败 且 没有 已 经 实例 化 的 处 理 程序 时 ，allocate 使 用 断言 来 实现 已 
检查 的 运行 时 错误 。 


处 理 程序 通过 调用 setjmp(Allocate_Failed) 实 例 化 ， 该 调用 返回 一 个 
整数 。setimp 的 一 个 有 趣 特性 是 ， 它 可 能 返回 两 次 。 对 setjimp 的 调用 返 
回 零 。allocate 中 对 longjmp 的 调用 导致 stjimp 第 二 次 返回 ， 这 次 的 返回 值 
是 longjmp 的 第 二 个 参数 ， 在 上 述 的 例子 中 是 1。 因 而 ， 客 户 程序 可 通过 
测试 setjmp 的 返回 值 处 理 异 常 : 





char *buf; 

Allocation_handled = 1; 

if (setjmp(Allocate_Failed)) { 
fprintf(stderr, "couldn't allocate the buffer\n"); 
exit (EXIT_FAILURE); 

} 

buf = allocate(4096); 


Allocation_handled = 0; 


在 setimp 返 回 0 时 ， 代 码 将 继续 执行 ， 调 用 allocate。 如 采 分 配 失 
败 ，allocate 中 的 longjmp 将 导致 setjmp 再 次 返回 ， 这 一 次 返回 值 为 1， 执 
行将 进入 另 一 个 分 文 ， 调 用 fprintf 和 exit。 
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makebuffer〈 假 定 ) ， 而 makebuffer 本 身 又 实例 化 了 一 个 处 理 程序 并 调 
用 了 allocate， 束 会 出 现 舱 套 的 处 理 程序 。 髋 套 的 处 理 程 序 机 制 是 必须 提 
供 的 ， 因 为 客户 程序 无 法 得 知 实现 因 自 里 的 目的 而 实例 化 的 那些 处 理 程 
序 。 此 外 ，Allocation_handled 标 志 也 颇 为 别扭 ， 未 能 在 适当 的 时 候 设置 
或 清除 它 将 导致 混乱 。 下 一 市 描述 的 Except 接 口 会 处 理 这 些 遗 漏 。 





41 接口 


Except 接 口 将 setjmp/longjmp 设 施 封 装 在 一 组 宏和 函数 中 ， 这 些 宏 和 
函数 相互 协作 ， 提 供 了 一 个 结构 化 的 异常 处 理 设施 。 它 并 不 完善 ， 但 避 
免 了 上 文 所 述 的 错误 ， 而 其 中 的 宏 很 清楚 地 标识 出 了 使 用 民利 的 位 置 。 








异常 是 Except_T 类 型 的 全 局 或 静态 变量 : 


‘except.h 


) = 
#ifndef EXCEPT_INCLUDED 
#define EXCEPT_INCLUDED 


#include <setjmp.h> 


#define T Except_T 
typedef struct T { 
const char *reason; 


} T; 


(exported types 


39) 


(exported variables 


39) 


(exported functions 


35) 


(exported macros 


35) 


#undef T 


#endif 


Except_T 结 构 只 有 一 个 字段 ， 可 以 初始 化 为 一 个 描述 异常 信息 的 字符 
串 。 在 发 生 未 处 理 的 异常 时 ， 将 输出 该 字符 串 。 





异常 处 理 程 序 需要 操作 异常 的 地 址 。 因 而 异常 必须 是 全 局 或 静态 变 
量 ， 使 得 其 地 址 可 以 唯一 地 标识 茶 个 异 币 。 将 异常 声明 为 局 部 变量 或 作 
为 参数 是 未 检查 的 运行 时 错误 。 








异常 e 通 过 RAISE 宏 或 Except_ raise al 5] 5% 


(exported macros 


35) = 
#define RAISE(e) Except_raise(&(e), FILE LINE  ) 





‘exported functions 


35) = 


void Except_raise(const T *e, const char *file,int line); 





向 Except_raise 传 递 的 e 值 为 NULL 指 针 ， 是 已 检查 的 运行 时 错误 。 


处 理 程 序 通 过 TRY-EXCEPT 和 TRY-FINALLY 语 句 实例 化 ， 
句 用 宏 实现 。 这 些 语句 处 理 舱 套 异 常 并 管理 异常 状态 数据 。TRY- 
EXCEPT 语 句 的 语法 如 下 : 





TRY 


EXCEPT( e 


Ie |B 


EXCEPT( e 


EXCEPT( e 


ELSE 


END_TRY 


TRY-EXCEPTiB#‘J Ne, v & v o eh 等 异常 确定 处 理 程序 ， 并 执行 语 
句 S。 如 果 S 没 有 引发 异常 ， 将 缀 载 处 理 程序 并 继续 执行 END_TRY 之 后 
的 语句 。 如 果 S$ 引 发 了 一 个 异常 e，e 是 ej -e 之 一 ， 那 么 S 的 执行 将 中 
断 ， 控 制 立 即 转移 到 e 对 应 的 EXCEPT 子 句 后 的 语句 。 各 个 处 理 程序 将 
旨 载 ， 而 e 对 应 的 EXCEPT 子 句 中 的 处 理 程序 语句 S， 将 会 执行 ， 接 下 来 
将 继续 执行 END_TRY 之 后 的 代码 。 





如 果 S 引 发 的 异常 并 非 e1 -el 其 中 之 一 ， 那 么 各 处理 程序 将 被 凶 载 ， 
ELSE 后 的 语句 将 执行 ， 而 后 将 继续 执行 END_TRY 之 后 的 代码 。ELSE 
子 句 是 可 选 的 。 

如 果 S 引 发 的 异常 不 能 被 某 个 S， 人 处理， 那么 各 处 理 程序 将 纯 载 ， 该 
异常 将 传递 到 此 前 执行 的 TRY-EXCEPT 或 TRY-FINALLY 语 句 建立 的 处 


理 程序 。 


TRY-END_TRY 在 语法 上 与 单个 语句 是 等 效 的 。TRY 引 入 一 个 新 的 
作用 域 ， 该 作用 域 在 对 应 的 END_TRY 处 结束 。 





重 写 前 一 节 末 尾 的 例子 ， 即 可 说 明 这 些 宏 的 用 法 。Allocate_Failed 
变 为 一 个 异常 ， 如 果 malloc 返 回 NULE 指 针 ，allocate 将 引发 该 异常 : 


Except_T Allocate_Failed = { "Allocation failed" }; 


void *allocate(unsigned n) { 


void *new = malloc(n); 


if (new) 
return new; 
RAISE(Allocate_Failed); 


assert(0); 


如 果 客 户 程序 代码 想 要 处 理 该 异常 ， 则 需 在 TRY-EXCEPT 语 句 内 部 调用 


allocate: 


extern Except_T Allocate Failed; 
char *buf; 
TRY 
buf = allocate(4096); 
EXCEPT(Allocate_Failed) 
fprintf(stderr, "couldn't allocate the buffer\n"); 


exit (EXIT_FAILURE); 


END_TRY; 


TRY-EXCEPT 语 句 是 用 setmp 和 longjmp 实 现 的 ， 因 此 标准 C 语 言 有 
关 这 些 函 数 用 法 的 警告 也 适用 于 TRY-EXCEPT 语 句 。 特 别 地 ， 如 果 S 改 
变 了 某 个 自动 变量 ， 如 果 异 常 导致 执行 转向 某 个 处 理 程序 语句 Sj 或 
END_TRY 之 后 的 代码 ， 那 么 该 修改 可 能 是 无 效 的 。 例 如 ， 下 述 代 码 片 
By 








static Except_T e; 
int i = 0; 


TRY 


RAISE(e); 
EXCEPT(e) 

; 
END_TRY; 


printf("%d\n", i); 


可 能 输出 0 或 1， 这 取决 于 setjmp 和 longjmp 的 实现 相关 的 细节 。S 中 改变 
的 局 部 变量 必须 声明 为 volatile， 例 如 ， 将 的 声明 改 为 





volatile int i = 0; 
将 导致 上 述 的 例子 输出 1。 
TRY-FINALLY 语 名 的 语法 如 下 : 


TRY 


FINALLY 
S 


END_TRY 


如 果 S 没 有 引发 异常 ， 将 执行 S| ”并 继续 执行 END_TRY 之 后 的 语句 。 如 
果 S 引 发 了 异常 ， 将 中 断 S 的 执行 ， 控 制 立 即 转移 到 S| o FES, 执行 之 
Ja, SES, 执行 的 异常 将 被 再 次 引发 〈re-raised) ， 使 之 可 以 被 此 前 实 
例 化 的 处 理 程 序 处 理 。 请 注意 ， 在 这 两 种 情况 下 Si1 都 会 执行 。 处 理 程序 
可 以 用 RERAISE 宏 明确 地 再 次 引发 异常 : 


‘exported macros 


35) += 
#define RERAISE Except_raise(Except_frame.exception, \ 


Except_frame.file, Except_frame.line) 


TRY-FINALLY 语 句 等 效 于 : 


TRY 


ELSE 


RERAISE; 
END_TRY; 


S 





TIER, DESERRI IAE, MAATS 。 


TRY-FINALLY 语 名 的 一 个 目的 是 ， 在 发 生 异 常 时 给 客户 程序 一 个 
机 会 进行 “清理 ”。 例 如 ， 


FILE *fp = fopen(...); 
char *buf; 
TRY 

buf = allocate(4096); 


FINALLY 
fclose(fp); 


END_TRY; 


无 论 分 配 失 败 还 是 成 功 ， 上 述 代 码 都 会 关闭 打开 的 文件 邑 。 如 果 分 配 确 
实 失 败 了 ， 那 么 必须 有 另 一 个 处 理 程序 来 处 理 Allocate_Failed。 


如 果 TRY-FINALLY 语 句 中 的 S| 或 TRY-EXCEPT 语 句 中 的 处 理 程序 
引发 了 一 个 异常 ， 该 异常 将 由 此 前 实例 化 的 处 理 程序 处 理 。 





下 述 的 退化 语句 


TRY 


FINALLY 
/ 


END_TRY 





该 接口 中 最 后 一 个 宏 是 


(exported macros 


35) += 
#define RETURN switch ( (pop 


41) ,0) default: return 


在 TRY 语 句 内 部 需要 使 用 RETURN 宏 ， 而 不 是 return 语 句 。 在 TRY- 
EXCEPT 或 TRY-FINALLY 语 句 内 部 执行 C 语 言 的 return 语 句 是 一 个 未 检 
查 的 运行 时 错误 。 如 果 TRY-EXCEPT 或 TRY-FINALLY 中 的 任何 语句 必 
须 执行 返回 ， 可 以 用 RETURN 安 来 代 蔡 通常 的 return 语 句 。RETURN 安 
中 使 用 了 switch 语 句 ， 使 得 RETURN 和 RETURN e 都 能 够 扩展 为 语法 正 
确 的 C 语 句 。<pop 41> 的 细节 在 下 一 节 描 述 





显然 ，Except 接 口中 的 宏 比 较 粗 糙 且 有 些 脆 弱 。 其 中 的 未 检查 的 运 
AT ES Set DF ll RIL "I PERR ARE AE ELE bug. 对 大 多 数 应 用 程序 来 
说 ， 这 些 宏 ae 因为 寞 T i o 
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4.2 ”实现 


Except 接 口中 的 宏和 函数 相互 协作 ， 维 护 了 一 个 结构 栈 ， 栈 中 的 各 
个 结构 实例 记录 了 异常 状态 和 实例 化 的 处 理 程序 。 该 结构 的 env 字 上 段 是 
一 个 jmp_buf， 由 setjmp 和 longjmp 使 用 ， 因 而 该 栈 能 够 处 理 航 套 异 常 。 





‘exported types 


39) = 
typedef struct Except_Frame Except_Frame; 
struct Except_Frame { 
Except_Frame *prev; 
jmp_buf env; 
const char *file; 
int line; 
const T *exception; 


}; 


‘exported variables 


39) = 


extern Except_Frame *Except_stack; 


Except_stack 4 H i is Be Julai E, REC prev Be Fa [Al Hl — A 
帧 。 如 前 一 节 中 RERAISE 的 定义 所 示 ， 引 发 民利 会 将 异常 的 地 址 存储 在 
exception 字 上 段 中 ， 并 将 异常 的 “坐标 ”( 即 引发 异常 的 文件 和 行 号 ) 存储 
到 file 和 line 字 段 中 。 





TRY 子 句 将 一 个 新 的 Except_Frame 压 入 异常 栈 并 调用 setjmp。 
Except_raise 由 RAISE 和 RERAISE 调 用 ， 该 函数 会 在 栈 顶 的 异常 帧 中 填 
写 exception、file 和 line 字 段 ， 将 栈 顶 的 Except_Frame 弹 出 栈 ， 并 调用 
longjmp。EXCEPT 子 句 测试 该 帧 的 exception 字 段 来 确定 应 用 哪个 处 理 程 
序 。FINALLY 子 句 执 行 其 清理 代码 并 再 次 引发 弹出 的 异常 帧 中 存储 的 


已 人 
FF If o 





如 果 发 生 异 常 后 ， 控 制 转移 到 END_TRY 子 句 时 异常 尚未 被 处 理 ， 
则 再 次 引发 该 异常 。 





TRY、EXCEPT、ELSE、FINALLY 和 END_TRY 几 个 宏 相 互 协作 ， 
将 TRY-EXCEPT 语 名 转译 为 下 述 形式 的 语句 : 


do { 
创建 Except_Frame 并 压 栈 
if (从 setjmp 第 一 次 返回 ) { 
S 





yt 


} else if (异常 为 e 





} else if (异常 为 e 





) i 





























S 
n 
} else { 
S 
0 
} 
if (发 生 异 常 但 没有 处 理 ) 
RERAISE; 
} while (0) 


do-while 语 名 使 得 TRY-EXCEPT 在 语法 上 与 普通 的 C 语 句 等 效 ， 这 样 它 


可 以 像 任何 其 他 C 语 名 一 样 使 用 。 例 如 ， 它 可 以 用 作 计 语句 的 后 项 。 图 4- 
1 给 出 了 一 般 的 TRY-EXCEPT 语 名 生成 的 代码 。 阴 影 方 框 标 明了 TRY 和 
END_TRY 宏 展开 得 到 的 代码 ， 方 框 标记 了 EXCEPT 宏 展开 得 到 的 代 

码 ， 而 双 线 框 标记 了 ELSE 展 开 生 成 的 代码 。 图 4-2 给 出 了 TRY- 
FINALLY 语 句 展 开 生成 的 代码 。 方 框 标 记 了 FINALLY 展 开 得 到 的 代 
但 。 





do { 
volatile int Except_flag; 
Except_Frame Except_frame; 
Except_frame.prev = Except_stack; 
Except_stack = &Except_frame; 
Except_flag = setjmp(Except_frame.env) ; 
if (Except_flag == Except_entered) { 


S 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else if (Except_frame.exception == &( e)) { 
Except_flag = Except_handled; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else if (Except_frame.exception == 
Except_flag = Except_handled; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 


else if (Except_frame.exception == &(e,)) { 
Except_flag = Except_handled; 





if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else { 
Except_flag = Except_handled; 
So 
if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
} 
if (Except_flag == Except_raised) 


Except_raise(Except_frame.exception, 
Except_frame.file, Except_frame.line) ; 
} while (0) 


图 4-1 TRY-EXCEPT 语 名 的 展开 


Except_Frame 的 空间 是 在 栈 上 分 配 的 ， 只 需 在 由 TRY 开始 的 do- 
while 内 部 的 复合 语句 中 声明 一 个 该 类 型 的 局 部 变量 即 可 : 





(exported macros 


35) += 

#define TRY do { \ 
volatile int Except_flag; \ 
Except_Frame Except_frame; \ 


(push 


41) \ 
Except_flag = setjmp(Except_frame.env); \ 


if (Except_flag == Except_entered) { 


do { 
volatile int Except_flag; 
Except_Frame Except_frame; 
Except_frame.prev = Except_stack; 
Except_stack = &Except_frame; 
Except_flag = setjmp(Except_frame.env) ; 
if (Except_flag == Except_entered) { 


(Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 





(Except_flag == Except_entered) 
Except_flag = Except_finalized; 








if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 


} 
if (Except_flag == Except_raised) 
Except_raise(Except_frame.exception, 
Except_frame.file, Except_frame.line); 
} while (0) 


图 4-2 TRY-FINALLY 语 名 的 展开 


一 个 TRY 语句 内 有 4 种 状态 ， 如 以 下 的 枚 举 标 识 符 所 示 。 


(exported types 


39) += 
enum { Except_entered=0, Except_raised, 


Except_handled, Except_finalized }; 


setjmp 的 第 一 次 返回 将 Except_flag 设 置 为 Except_entered， 表 示 已 经 进入 
TRY 语句 并 将 一 个 异常 帧 压 入 异常 栈 。Except_entered 必 须 为 零 ， 因 为 


第 一 次 调用 setjimp 返 回 零 ， 此 后 从 setmp 返 回 时 会 将 该 标志 设置 为 
Except_raised， 这 表示 发 生 了 异常 。 处 理 程序 将 Except_flag 设 置 为 
Except_handled， 表 示 它 们 已 经 处 理 了 该 异常 。 


Except_FrameJ& AJ Belt, R et RIE Except_stack 4 [A] H 
Except_Frame 结 构 链表 的 头 部 ， 而 从 链表 头 部 删除 异常 帧 ， 即 表示 将 栈 
顶 的 异常 帧 出 栈 。 


(push 


41) = 
Except_frame.prev = Except_stack; \ 


Except_stack = &Except_frame; 


(pop 


41) = 


Except_stack = Except_stack->prev 


EXCEPT 子 句 将 变 为 图 4-1 中 给 出 的 else-if 语 句 。 


‘exported macros 


35) += 
#define EXCEPT(e) \ 
(pop if this chunk follows S 


42) \ 
} else if (Except_frame.exception == &(e)) { \ 


Except_flag = Except_handled; 


(pop if this chunk follows S 


42) = 
if (Except_flag == Except_entered) (pop 


41) ; 





使 用 宏 来 实现 异常 将 导致 一 些 扭曲 的 代码 ， 如 代码 块 <pop if this chunk 
follows S 42> 所 示 。 该 代码 块 出 现在 上 述 EXCEPT 定 义 中 的 else-if 之 前 ， 
仅 当 处 于 第 一 个 EXCEPT 子 句 中 ， 才 会 弹出 异常 栈 顶 部 的 异常 帧 。 如 末 
在 执行 S 时 没有 发 生 异 常 ，Except_flag 的 值 仍 然 是 Except_entered， 那 么 
在 控制 到 达 计 语句 时 ， 将 弹出 寞 常 栈 顶 部 的 异常 帧 。 而 第 二 个 和 后 面 的 


EXCEPT 子 句 则 跟随 在 处 理 程序 之 后 ， 此 时 Except_flag 已 经 变 为 
Except_handled。 对 于 这 些 子 句 来 说 ， 异 常 栈 项 部 的 异常 帧 已 经 弹出 ， 
代码 块 <pop if this chunk follows S 42> 中 的 if 语 句 防止 了 再 次 弹出 。 





ELSE 子 句 与 EXCEPT 子 句 类 似 ， 但 将 else-if 改 为 else: 


(exported macros 


35) += 
#define ELSE \ 


(pop if this chunk follows S 


42) \ 
} else { \ 
Except_flag = Except_handled; 


同样 ，FINALLY 子 句 也 类 似 于 ELSE 子 句 ， 只 是 没有 else 语 句 而 已 : 控 
制 直接 进入 到 清理 代码 。 


‘exported macros 


35) += 


#define FINALLY \ 


(pop if this chunk follows S 


42) \ 
oe 
if (Except_flag == Except_entered) \ 


Except_flag = Except_finalized; 


这 里 将 Except_flag 从 Except_entered 改 变 为 Except_finalized， 表 示 没 有 发 
生 异 常 ， 但 进入 到 了 FINALLY 子 句 。 如 果 发 生 了 异常 ， 那 么 Except_flag 
仍然 保持 Except_raised 的 值 不 变 ， 这 样 在 清理 代码 执行 之 后 可 以 再 次 引 
发 异 谓 。 在 END_TRY 中 ， 会 判断 Except_flag 是 否 等 于 Except_raised， 如 
果 是 的 话 ， 则 再 次 引发 异常 。 如 果 没 有 发 生 异 常 ，Except_flag 将 是 
Except_entered 或 Except_finalized: 





‘exported macros 


35) += 
#define END_TRY \ 


(pop if this chunk follows S 


42) \ 


} if (Except_flag == Except_raised) RERAISE; \ 


} while (0) 





except.c 中 Except_raise 的 实现 ， 是 拼图 的 最 后 一 厂 : 


‘except.c 


Y= 
#include <stdlib.h> 
#include <stdio.h> 
#include "assert.h" 
#include "except.h" 


#define T Except_T 
Except_Frame *Except_stack = NULL; 


void Except_raise(const T *e, const char *file, 
int line) { 


Except_Frame *p = Except_stack; 


assert(e); 
if (p == NULL) { 


(announce an uncaught exception 


43) 
} 
p->exception = e; 
p->file = file; 
p->line = line; 


(pop 


41) ; 


longjmp(p->env, Except_raised); 


如 果 异 常 栈 顶部 有 一 个 Except_Frame， 则 Except_raise 填 写 其 exception、 
file 和 line 字 段 ， 从 栈 中 弹出 该 异常 帧 ， 并 调用 longjmp。 与 之 对 应 的 
setjmp 的 调用 将 返回 Except_raised， 在 TRY-EXCEPT 或 TRY-FINALLY 语 
人 句 中 ，setjmp 返 回 的 Except_raised 接 下 来 会 赋值 给 Except_flag， 然 后 执行 
适当 的 处 理 程序 。Except_raise 会 从 异常 栈 栈 顶 弹出 一 个 异常 巾 ， 这 样 ， 
如 果 某 个 处 理 程序 中 发 生 了 异常 ， 该 异常 将 由 当前 异常 帧 顶部 的 异常 帧 
所 对 应 的 TRY-EXCEPT 语 句 处 理 。 





如 果 异 常 栈 是 空 的 ， 即 将 引发 的 异常 不 会 有 处 理 程 序 ， 因 此 
Except_raise 别 无 选择 ， 只 能 宣布 一 个 未 处 理 的 异常 并 停止 程序 的 执行 : 





‘announce an uncaught exception 


43) = 
fprintf(stderr, "Uncaught exception"); 
if (e->reason) 
fprintf(stderr, " %s", e->reason); 
else 
fprintf(stderr, " at Ox%p", e); 
if (file && line > 0) 
fprintf(stderr, " raised at %s:%d\n", file, line); 
fprintf(stderr, "aborting...\n"); 
fflush(stderr); 


abort(); 








abort 是 标准 C 库 函数 ， 用 于 放 奔 程序 的 执行 ， 有 时 会 有 一 些 与 机 器 相关 
的 副 效 应 。 例 如 ， 它 可 能 局 动 一 个 调试 器 或 只 是 进行 内 存 转 储 。 





43 断言 


C 语 言 标准 要 求 头 文件 assert.h 将 assert(e@) 定 义 为 宏 ， 来 提供 诊断 信 
恩 。assert(e) 会 计算 表达 式 e 的 值 ， 如 果 e 为 0， 则 回 标 准 错误 输出 
(stderr) 写 出 诊断 信息 ， 并 调用 标准 库 函 数 abort 放 弃 程序 的 执行 。 诊 
断 信 息 包 含 失败 的 断言 〈 即 表达 式 e 的 文本 ) AT Ce) 出 现 的 坐标 
《文件 和 行 号 ) 。 该 信息 的 格式 是 由 具体 实现 定义 的 。assert(0) 是 一 个 
很 好 的 方法 ， 用 于 指明 “不 可 能 发 生 ” 的 情况 。 当 然 ， 也 可 以 使 用 如 下 的 
tS: 





assert(!"ptr==NULL -- can't happen") 





这 显示 了 更 有 意义 的 诊断 信息 。 





asserth 也 使 用 NDEBUG 安 ， 但 并 未 定义 。 如 果 定 义 了 NDEBUG， 
那么 assert(e) 必 须 等 效 于 空 表达 式 C(void)O) 。 这 样 ， 程 序 员 可 以 通过 
定义 NDEBUG 并 重新 编译 来 关闭 断言 。 由 于 e 可 能 不 被 执行 ， 很 重要 的 
一 点 是 ，e 绝 不 应 该 成 为 有 副 效应 的 计算 过 程 〈 如 赋值 ) 的 一 个 必要 间 


分 。 


assert(e) 是 一 个 表达 式 ， 因 此 assert.h 的 大 多 数 版 本 在 逻辑 上 都 等 效 


#undef assert 
#ifdef NDEBUG 
#define assert(e) ((void)0) 


#else 


extern void assert(int e); 


#define assert(e) ((void)((e)|| \ 


"%S:%d: Assertion failed: %s\n", \ 


(fprintf(stderr, 
__FILE__, (int) LINE , #e), abort(), 0))) 


#endif 


Cassert.h 的 “真实 ”版 本 与 上 述 代码 不 同 ， 因 为 使 用 fprintf 和 stderr 需 要 包 
含 stdio.h， 这 是 不 允许 的 。) 类似 et |e MAAS UN AY HIE R FA lo 


中 ， 如 站 语句 ， 但 它 也 可 以 作为 单独 的 语句 出 现 。 作 为 单独 的 语句 ， 该 
表达 式 的 效果 等 效 于 下 述 语句 : 





if (!(e 


assert 的 定义 使 用 了 ei lle。 ， 这 是 因为 assert(e) 必 须 扩展 为 表达 式 ， 而 不 是 
语句 。e。 是 一 个 逗号 表达 式 ， 其 结果 是 一 个 值 ， 这 是 || 运 算 符 的 要 求 ， 
整个 表达 式 最 终 转 换 为 void， 是 因为 C 语 言 标 准 规定 assert(e) 没 有 返回 
值 。 在 标准 的 C 预 处 理 器 中 ，#e 将 转换 为 一 个 字符 串 常 量 ， 字 符 串 的 内 
容 是 表达 式 e 在 源 代码 中 的 文本 。 











Assert 接 口 按 标 准 的 规定 定义 了 assert(e)， 但 在 断言 失败 时 将 引发 
Assert_Failed 异 常 ， 而 不 是 放弃 执行 ， 男 外 也 没有 提供 表达 式 e 的 文本 : 





(assert.h 


六 三 
#undef assert 
#ifdef NDEBUG 
#define assert(e) ((void)0O) 
#else 
#include "except.h" 
extern void assert(int e); 
#define assert(e) ((void)((e)]||(RAISE(Assert_Failed),0))) 


#endif 


(exported variables 


39) += 


extern const Except_T Assert_Failed; 


Assert 模 仿 了 标准 的 定义 ， 这 样 Assert 和 标准 提供 的 两 个 assert.h 头 文件 是 
可 互 换 的 ， 这 也 是 Assert_Failed 出 现在 except.h 中 的 原因 。 该 接口 的 实现 
很 简单 : 


(assert.c 


) = 


#include "“assert.h" 


const Except_T Assert_Failed = { "Assertion failed" }; 


void (assert)(int e) { 
assert(e); 


} 


在 水 数 定 义 中 ， 围 绕 函 数 名 assert 的 括号 防止 宏 assert 在 此 展开 ， 因 而 按 
接口 的 规定 定义 了 该 函数 。 


如 果 客 户 程序 没有 人 处理 Assert_Failed， 那 么 断言 失败 将 导致 程序 放 
弃 执 行 ， 并 输出 一 条 信息 ， 如 下 所 示 : 


Uncaught exception Assertion failed raised at stmt.c:201 


aborting... 


这 在 功能 上 与 assertp 特 定 于 机 需 的 版 本 所 输出 的 诊断 信息 是 等 效 的 。 





将 断言 打包 起 来 ， 使 之 在 失败 时 引发 异常 ， 这 种 做 法 有 助 于 解决 在 
产品 程序 中 处 理 断 言 面临 的 两 难处 境 。 一 些 程序 员 建 议 不 要 将 断言 留 在 
产品 程序 中 ，assert.h 中 对 NDEBUG 的 标准 用 法 支持 了 该 建议 。 关 于 删除 
电 言 的 原因 ， 最 常 提 到 的 两 个 原因 是 效率 和 含义 模糊 的 诊断 信息 。 


肠 言 确实 要 人 花费 时 间 ， 因 此 删除 断言 只 会 使 程序 更 快 。 可 以 训 量 有 
无 断言 情况 下 执行 时 间 的 差别 ， 但 关 别 通 香 很 小 。 因 为 效率 原因 而 删除 
断言 ， 与 改进 执行 时 间 的 其 他 任何 改变 部 是 类 似 的 : 仪 在 得 到 客观 测量 
结果 的 文 持 时 ， 才 应 该 进行 改变 。 

















在 测量 表明 断言 开销 太 高 时 ， 有 时 可 以 移动 断言 的 位 置 ， 在 不 失去 
盯 言 好 处 的 情况 下 降低 其 开销 。 例 如 ， 假 定 np 包含 了 一 个 开销 过 高 的 断 
言 ，f 和 g 都 调用 了 h， 测 量 表 明 大 多 数 时 间 开销 是 因为 来 自 g 的 调用 造成 
的 ，g 在 一 个 循环 中 调用 了 h。 鹿 避 的 分 析 可 能 会 揭示 这 样 的 可 能 性 ， 即 
h 中 的 断言 可 以 移 到 f 和 g， 在 g 中 置 于 循环 之 前 。 





肠 言 的 更 严重 的 问题 在 于 ， 它 们 会 导致 输出 诊断 信息 ， 如 上 文 的 断 
言 失败 诊断 ， 这 将 迷惑 用 户 。 但 删除 断言 ， 无 疑 是 用 更 严重 的 问题 代 谷 
了 诊断 信息 。 在 断言 失败 时 ， 程 序 加 是 错误 的 。 如 果 程 序 继续 执行 ， 其 
结果 是 不 可 预测 的 ， 很 可 能 崩 尝 。 如 下 的 信息 : 


General protection fault at 3F60:40EA 


BY 


Segmentation fault -- core dumped 


与 上 文 显示 的 断言 失败 诊断 信息 没 多 大 差别 。 更 糟糕 的 是 ， 在 断言 失败 
之 后 继续 执行 《而 不 停止 ) 的 程序 可 能 会 破坏 用 户 的 数据 ， 例 如 ， 编 辑 
名 如 末 在 断言 失败 后 继续 执行 ， 束 可 能 破坏 用 户 的 文件 。 这 种 行为 是 不 
HRH. 





断言 失败 时 ， 诊 断 信息 含义 模糊 的 问题 可 以 这 样 解决 ， 在 程序 的 产 
品 版 本 顶层 代码 中 放 一 个 TRY-EXCEPT 语 句 ， 捕 获 所 有 的 未 捕获 异常 ， 
并 输出 更 有 帮助 的 诊断 信息 。 例 如 : 








#include <stdlib.h> 
#include <stdio.h> 


#include "except.h" 


int main(int argc, char *argv[]) { 
TRY 
edit(argc, argv); 
ELSE 
fprintf(stderr, 
"An internal error has occurred from which there is " 
"no recovery.\nPlease report this error to " 
"Technical Support at 800-777-1234.\nNote the " 
"following message, which will help our support " 
"staff\nfind the cause of this error.\n\n") 
RERAISE; 
END_TRY; 


return EXIT_SUCCESS; 








在 出 现 未 捕获 的 异常 时 ， 将 由 该 处 理 程 序 接手 ， 指 导 用 户 报告 bug， 然 
后 再 输出 含义 模糊 的 异常 诊断 信息 。 对 于 断言 失败 ， 它 会 输出 





An internal error has occurred from which there is no recovery. 
Please report this error to Technical Support at 800-777-1234. 
Note the following message, which will help our support staff 


find the cause of this error. 


Uncaught exception Assertion failed raised at stmt.c:201 


aborting... 


44 扩展 阅读 


有 几 种 语言 内 建 了 异常 机 制 ， 例 子 包括 Ada、Modula-3 [Nelson, 
1991]. Eiffel [Meyer, 1992]. #UC++[Ellis and Stroustrup, 1990]. 
Except 接 口 的 TRY-EXCEPT 语 句 模仿 了 Modula-3 的 TRY-EXCEPT 语 句 。 





对 C 语 言 ， 已 经 提议 了 几 种 异常 机 制 ， 它 们 都 提供 了 类 似 TRY- 
EXCEPT 语 句 的 功能 ， 语 法 和 语义 方面 间或 稍 有 变化 。[Roberts，1989] 
一 书 描述 了 一 种 用 于 异常 设施 的 接口 ， 与 Except 提 供 的 接口 是 等 效 的 。 
他 的 实现 也 与 本 书 类 似 ， 但 在 引发 异常 时 更 为 高 效 。Except_raise 调 用 
longjmp 将 控制 转移 到 处 理 程 序 。 如 果 处 理 程 序 没有 处 理 该 异常 ， 会 再 
次 调用 Except_raise， 进 而 调用 longjmp。 如 果 该 异常 的 处 理 程序 位 于 异 
党 栈 顶 部 之 下 第 N 帧 ， 那 么 需要 调用 Except_raise 和 longjmp 函 数 N 次 。 
Roberts 的 实现 只 需 一 次 调用 ， 即 可 找到 适当 的 处 理 程序 ， 或 跳 转 到 第 一 
个 FINALLY 子 句 。 为 做 到 这 一 点 ， 需 要 对 TRY-EXCEPT 语 句 中 异常 处 
理 程序 的 数目 设置 一 个 上 限 。 一 些 C 语 言 编 译 器 〈 如 微软 公司 提供 
的 ) ， 提 供 了 结构 化 异常 设施 作为 语言 扩展 。 











一 些 语言 有 内 建 的 断言 机 制 ，Eiffel 就 是 一 个 例子 。 大 多 数 语 言 使 
用 与 C 语 言 的 assert 宏 类 似 的 机 制 ， 或 用 其 他 编译 器 指令 来 指定 断言 。 例 
如 ，Digital 的 Modula-3 编 译 器 可 以 识别 形 如 <*ASSERT expression*> 的 注 
释 ， 将 其 作为 指定 断言 的 编译 指示 。[Maguire，1993] 一 书 用 一 整 章 的 篇 
幅 讨 论 C 程 序 中 断言 的 使 用 。 


45 习题 


4.1 一 个 语句 同时 包含 EXCEPT 和 FINALLY 子 句 
种 效果 ? 以 下 是 这 种 形式 的 语句 : 


TRY 


EXCEPT(e 





， 该 语句 会 有 何 


EXCEPT (e 


FINALLY 


S 


END_TRY 


4.2 ”修改 Except 的 接口 和 实现 ， 使 得 只 调用 一 次 longjmp， 即 可 到 
达 适 当 的 处 理 程序 或 FINALLY 子 句 ， 如 上 文 所 述 ，[Roberts，1989] 一 书 
就 实现 了 这 种 处 理 方 式 。 





43 ”UNIX 系统 使 用 信号 来 通知 一 些 异 常情 况 ， 如 浮 点 上 溢 和 用 户 
敲 击 “* 中 断 ” 键 。 请 研究 UNIX 信 和 号 指令 系统 ， 并 对 信和 号 处 理 程 序 设计 实 
现 一 种 接口 ， 将 信号 转换 为 异常 。 


4.4 一 些 系 统 在 程序 异常 结束 时 输出 调用 栈 回 滴 。 这 给 出 了 程序 
异常 结束 时 过 程 调用 栈 的 状态 ， 它 可 能 包括 过 程 名 和 参数 。 改 变 
Except_raise， 使 之 在 通知 未 捕获 的 异常 时 输出 调用 栈 回 滴 。 读 者 也 许 能 
够 输出 调用 的 过 程 名 和 行 号 ， 这 取决 于 读者 计算 机 上 的 调用 约定 。 例 
如 ， 调 用 栈 回 浏 信息 可 能 如 下 所 示 : 


Uncaught exception Assertion failed 
raised in whilestmt() at stmt.c:201 
called from statement() at stmt.c:63 
called from compound() at decl.c:122 
called from funcdefn() at decl.c:890 


called from decl() at decl.c:95 
called from program() at decl.c:788 
called from main() at main.c:34 


aborting... 





4.5 在 一 些 系 统 上 ， 程 序 在 检测 到 错误 时 可 以 对 本 喘 调 用 调试 
器 。 这 种 设施 在 开发 期 间 特 别 有 用 ， 这 期 间断 言 失败 的 情况 很 常见 。 如 
果 你 的 系统 支持 这 种 设施 ， 可 修改 Except_raise， 使 之 在 通知 未 捕获 的 异 
党 后 不 再 调用 abort， 而 是 局 动 调试 器 。 设 法 使 你 的 实现 能 够 在 产品 程序 
中 工作 ， 即 ， 使 之 能 够 在 运行 时 判断 是 否 调 用 调试 器 。 


4.6 ”如 果 你 可 以 接触 到 C 编 译 器 的 源 代码 如 ]cc [Fraser and Hanson, 
1995]， 请 修改 该 编译 器 ， 使 之 文 持 异常 、TRY 语 句 、RAISE 以 及 
RERAISE 表 达 式 ， 语 法 和 语义 如 本 章 所 述 ， 但 不 能 使 用 setjmp 和 
longjmp。 你 需要 实现 一 种 类 似 setjmp 和 longjmp 的 机 制 ， 只 是 该 机 制 专 
用 于 异常 处 理 。 例 如 ， 通 常 可 以 只 用 几 个 指令 来 实例 化 处 理 程序 。 提 醒 
读者 : 这 个 习题 是 一 个 较 大 的 项 目 。 


Hae 内存 管理 








所 有 非 平凡 的 C 程 序 都 会 在 运行 时 分 配 内 存 。 标 准 C 库 提供 了 4 个 内 
存 管理 例 程 : malloc、calloc、realloc 和 free。Mem 接 口 将 这 些 例 程 重 新 
包装 为 一 组 宏和 例 程 ， 使 之 不 那么 容易 出 错 ， 并 提供 了 一 些 额 外 的 功 


au 
HE o 





遗憾 的 是 ，C 程 序 中 内 存 管理 方面 的 bug 很 常见 ， 而 且 通 第 难于 诊断 
MER. PEN, “PIAS Ee 


p = malloc(nbytes); 


free(p); 


调用 malloc 分 配 nbytes 长 的 内 存 块 ， 将 该 内 存 块 第 一 个 字 市 的 地 址 赋值 

给 p， 使 用 p 和 它 指 同 的 内 存 块 ， 最 终 释 放 该 内 存 块 。 在 调用 free 之 后 ,Pp 
包含 一 个 悬挂 指针 一 一 指向 尿 辑 上 不 存在 的 内 存 的 指针 。 接 下 来 反 引 用 
p 是 一 个 错误 ， 但 如 果 该 内 存 块 没 有 因 其 他 原因 而 再 次 分 配 出 去 ， 这 个 

错误 可 能 不 会 被 检测 到 。 这 种 行为 是 使 得 此 类 内 存 访 问 错误 难于 诊断 的 
原因 : 在 检测 到 错误 时 ， 错 误 暴 露 的 时 间 和 位 置 可 能 与 错误 的 来 源 距离 
颇 远 。 














下 述 代码 片段 


p = malloc(nbytes); 


free(p); 


free(p); 


WH Sa: 释放 空闲 的 内 存 。 该 错误 通常 会 破坏 内 存 管理 函数 
使 用 的 数据 结构 ， 但 在 下 一 次 调用 东 个 内 存 管理 函数 之 前 ， 这 个 错误 可 
能 不 会 被 检测 到 。 





另 一 个 错误 是 释放 并 非 由 malloc、calloc 或 realloc 分 配 的 内 存 。 例 
如 ， 考 虑 下 述 程序 : 


char buf[20], *p; 

if (n >= sizeof buf) 
p = malloc(n); 

else 


p = buf; 


free(p); 





上 述 程序 的 本 音 是 在 n 小 于 buf 的 长 度 时 避免 分 配 内 存 ， 但 即使 p 指 向 buf 
时 ， 上 述 程序 也 会 错误 地 调用 free。 该 错误 通常 也 会 破坏 用 于 内 存 管理 
的 数据 结构 ， 而 且 直 到 以 后 才能 发 现 。 


最 后 ， 考 虑 下 述 函 数 : 


void itoa(int n, char *buf, int size) { 


char *p = malloc(43); 


sprintf(p, "%d", n); 

if (strlen(p) >= size - 1) { 
while (--size > 0) 

“buf++ = '*'; 

*buf = '\0'; 

} else 
strcpy(buf, p); 

} 


将 整数 n 的 十 进 制 字符 串 表 示 填 充 到 buf[0..size-1] 中 ， 如 果 该 表示 需要 的 
字符 数目 大 于 size-1， 则 用 星 号 填充 buf。 该 代码 看 起 来 很 健壮 ， 但 它 至 
少 包含 两 个 错误 。 第 一 ， 如 果 分 配 内 存 失 败 malloc 返 回 NULL 指 针 ， 该 
代码 没有 检测 这 种 情况 。 第 二 ， 该 代码 产生 了 一 个 内 存 浊 漏 : 它 没有 释 
放 分 配 的 内 存 。 程 序 每 次 调用 itoa 时 ， 内 存 会 被 逐渐 消耗 。 如 果 经 常 调 
用 itoa， 程 序 最 终 将 用 尽 内 存 并 失败 。 另 外 ， 当 size 小 于 2 时 itoa 工 作 正 

常 ， 但 它 会 将 buf[0] 设 置 为 零 字 符 。 或 许 更 好 的 设计 需要 要 求 size 大 于 等 
于 2， 并 通过 一 个 已 检查 的 运行 时 错误 来 强制 实施 该 约束 。 








Mem 接 口中 的 宏和 例 程 针 对 上 述 各 种 内 存 管理 错误 提供 了 一 些 保 
护 。 但 它们 不 能 消除 所 有 这 些 错误 。 例 如 ， 它 们 无 法 防止 反 引 用 已 破坏 
的 指针 或 使 用 指针 指向 超出 作用 域 的 局 部 变量 。C 语 言 初学 者 经 常 犯 后 
一 个 错误 ， 下 面 给 出 的 一 个 表面 看 起 来 更 简单 的 itoa 版 本 束 是 一 个 例 
Js 


char *itoa(int n) { 


char buf[43]; 


sprintf (buf, "%d", n); 


return buf; 


} 


itoa 返 回 其 局 部 数组 buf 的 地 址 ， 但 在 itoa 返 回 后 ，buf 就 不 再 存在 了 。 


5.1 接口 





Mem 接 口 导 出 了 以 下 异常 、 例 程 和 宏 : 


(mem. h 


)= 
#ifndef MEM INCLUDED 
#define MEM_INCLUDED 


#include "except.h" 


(exported exceptions 


51) 


(exported functions 


51) 


(exported macros 


51) 


#endif 





Mem 提 供 的 分 配 函 数 类 似 于 标准 C 库 ， 但 它们 不 接受 零 长 度 ， 也 不 
返回 NULL 指 针 : 


‘exported exceptions 


51) = 


extern const Except_T Mem_Failed; 


(exported functions 


51) = 
extern void *Mem_alloc (long nbytes, 
const char *file, int line); 
extern void *Mem_calloc(long count, long nbytes, 


const char *file, int line); 


Mem_alloc 分 配 一 块 至 少 为 nbytes 长 的 内 存 ， 并 返回 指 癌 其 中 第 一 个 字 贡 
的 指针 。 该 内 存 块 对 齐 到 地 址 边界 ， 能 够 适合 于 具有 最 严格 对 齐 要 求 的 
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个 已 检查 的 运行 时 错误 。 





Mem_calloc 分 配 一 个 足够 大 的 的 内 存 块 ， 可 以 容纳 一 个 包含 count 
个 元 素 的 数组 ， 每 个 数组 项 的 长 度 为 nbytes， 并 返回 指 问 第 一 个 数组 元 
素 的 指针 。 该 内 存 块 的 对 齐 与 Mem_alloc 类 似 ， 其 内 容 初 始 化 为 0。 
NULL 指 针 和 0.0 不 一 定 由 0 表示 ， 因 此 Mem_calloc 可 能 不 能 正确 地 初始 
化 它们 。count 或 nbytes 不 是 正 数 ， 是 已 检查 的 运行 时 错误 。 














Mem_alloc 和 Mem_calloc 的 最 后 两 个 参数 是 函数 被 调用 处 的 文件 名 
和 行 写 。 这 些 信息 由 以 下 宏 提 供 ， 这 是 调用 这 些 函 数 的 通常 方式 。 


‘exported macros 


51) = 
#define ALLOC(nbytes 


Mem_alloc((nbytes 


), _FILE , __LINE__) 








#define CALLOC(count, nbytes 


Mem_calloc( (count 


), (nbytes 


), _FILE , __LINE_) 





如 果 Mem_alloc 或 Mem_calloc 无 法 分 配 所 要 的 内 存 ， 则 引发 Mem_Failed 
异常 ， 并 将 fle 和 1line 参 数 传递 给 Except_raise， 这 样 ， 抛 出 的 异常 就 给 出 
了 调用 相应 函数 的 位 置 。 如 果 人 le 为 NULL 指 针 ，mem_alloc 和 
Mem_calloc 将 提供 其 实现 内 部 引发 Mem_Failed 异 和 常 的 位 置 。 

许多 分 配 操作 具有 下 述 形式 : 


struct T *p; 


p = Mem_alloc(sizeof (struct T)); 


即 为 结构 T 的 一 个 实例 分 配 内 存 块 ， 返 回 指 辣 块 的 一 个 指针 。 该 惯用 法 
的 一 个 更 好 的 版 本 如 下 : 


p = Mem alloc(sizeof *p); 


Mvoidtset WET Set RAL, ABT LATE sizeof*p{t Hsizeof(struct 
T)，sizeof*p 的 好 处 在 于 ， 这 种 用 法 不 依赖 指针 指向 的 类 型 。 如 果 *p 的 
类 型 发 生 了 改变 ， 这 种 分 配方 式 仍然 是 正确 的 ， 但 使 用 sizeof(struct T) 的 
分 配 则 必须 改变 ， 以 反映 *p 类 型 的 变化 出 。 即 


p = Mem_alloc(sizeof (struct T)); 


仅 当 p 确 实 是 指向 struct T 实 例 的 指针 时 ， 才 是 正确 的 。 如 果 p 改 为 指 疝 男 
一 个 结构 的 指针 而 不 更 新 该 调用 ， 那 么 上 述 调用 有 可 能 分 配 过 多 的 内 
存 ， 这 会 浪费 空间 ， 也 有 可 能 分 配 太 少 的 内 存 ， 这 会 造成 严重 的 损失 ， 
因为 客户 程序 访问 p 指 向 的 结构 时 ， 可 能 访问 到 未 分 配 的 内 存 。 

这 种 内 存 分 配 的 惯用 法 是 如 此 之 常见 ， 以 至 于 Mem 接 口 提供 了 宏 ， 
将 内 存 分 配 和 赋值 封装 起 来 : 


(exported macros 


51) += 
#define NEW(p 


) ((p 


) = ALLOC((long)sizeof *(p 


))) 
#define NEWO(p 


) ((p 


) = CALLOC(1, (long)sizeof *(p 


))) 


NEW(p) 分 配 了 一 个 未 初始 化 的 内 存 块 以 容纳 部 ， 并 将 p 设 置 为 该 块 的 地 
址 。NEWO0(p) 完 成 的 工作 类 似 ， 还 将 内 存 块 清 零 。 提 供 NEW 时 有 下 述 
假设 : 大 多 数 客户 程 序 在 分 配 内 存 块 后 会 立即 初始 化 。 传 递 给 编译 时 运 
算 符 sizeof 的 参数 只 用 于 获取 其 类 型 ， 运 行 时 不 会 计算 其 值 。 因 此 NEW 
和 NEW0 只 会 计算 p 一 次 ， 使 用 具有 副 效应 的 表达 式 作 为 这 两 个 宏 的 实 
参 是 安全 的 ， 例 如 NEW(a[i++])。 





malloc 和 calloc 的 参数 类 型 为 size t，sizeof 得 到 的 常数 ， 其 类 型 也 是 





size_t. size t 类 型 是 一 个 无 符号 整数 类 型 (integral type) ， 能 够 表示 可 
声明 的 最 大 对 象 的 大 小 ， 在 标准 库 中 指定 对 象 大 小 时 都 会 使 用 该 类 型 。 
实际 上 ，size {或 者 是 unsigned int， 或 者 是 unsigned long. mem_allocfil 
Mem_calloc 使 用 int 类 型 参数 ， 避 免 将 负数 传递 给 无 符号 参数 可 能 造成 的 
fiz. 。 例 如 ， 


int n = -1; 
p = malloc(n); 


显然 是 一 个 错误 ， 但 malloc 的 许多 实现 不 会 捕获 该 错误 ， 因 为 当 -1 转 换 
为 size_t 时 ， 通 第 是 一 个 非常 大 的 无 符 写 值 。 


内 存 通 过 Mem_free 释 放 : 


‘exported functions 


51) += 
extern void Mem_free(void *ptr, 


const char *file, int line); 


(exported macros 


51) += 


#define FREE(ptr 


) ((void) (Mem_free((ptr 


FILE , __LINE__), (ptr 





) = 0)) 


Mem_free 需 要 一 个 指向 被 释放 内 存 块 的 指针 作为 参数 。 如 果 ptr 不 
为 NULL 指 针 ， 那 么 Mem_free 将 释放 该 内 存 块 ， 如 果 ptr 是 NULL 指 针 ， 
Mem_free 没 有 效果 。FREE 宏 也 需要 一 个 指向 内 存 块 的 指针 作为 参数 ， 
它 调 用 Mem_free 释 放 该 块 ， 并 将 ptr 设 置 为 NULL 指 针 ， 如 2.4 节 所 述 ， 这 
样 做 有 助 于 避免 悬挂 指针 。 由 于 ptr 指 向 的 内 存 被 FREE 释放 后 ，ptr 被 设 
置 为 NULL 指 针 ， 此 后 对 ptr 进 行 反 引 用 ， 通 常会 导致 程序 因 某 种 寻 址 错 
误 而 骨 演 。 这 种 确定 性 的 错误 ， 比 反 引 用 悬挂 指针 导致 的 不 可 预测 的 行 
为 要 好 得 多 。 请 注意 ，FREE 会 多 次 对 ptr 求 值 。 


本 章 提 供 了 两 个 导出 Mem 接 口 的 实现 ， 后 续 各 节 会 详细 半 述 。“ 智 
核实 现实 现 了 一 些 已 检查 的 运行 时 错误 ， 有 助 于 捕获 前 一 节 描 述 的 那 
些 内 存 访 问 错误 。 在 该 实现 中 ， 将 并 非 由 Mem_alloc、Mem_calloc 或 











Mem_resize 返 回 的 非 NULL 指 针 ptr 传 递 给 Mem_free 是 一 个 已 检查 的 运行 
时 错误 ， 将 已 经 传递 给 Mem_free 或 Mem_resize 的 指针 ptr 再 次 传递 给 
Mem_free 也 是 已 检查 的 运行 时 错误 。Mem_free 的 fle 和 line 参 数 的 值 用 于 
报告 这 些 已 检查 的 运行 时 错误 。 




















但 在 “产品 实现 ”中 ， 这 些 内 存 访 问 错 误 是 未 检查 的 运行 时 错误 。 
下 面 的 函数 


(exported functions 


51) += 
extern void *Mem_resize(void *ptr, long nbytes, 


const char *file, int line); 


(exported macros 


51) += 
#define RESIZE(ptr, nbytes 


) ((ptr 


) = Mem_resize((ptr 


(nbytes 


), _FILE , __LINE_)) 





将 修改 上 一 次 调用 Mem_alloc、Mem_calloc 或 Mem resize 分 配 的 内 存 块 
的 长 度 。 类 似 Mem_free，Mem_resize 的 第 一 个 参数 也 是 一 个 指针 ， 其 中 
包含 了 将 改变 长 度 的 内 存 块 的 地 址 。Mem_resize 会 扩展 或 缩减 该 内 存 
块 ， 使 之 包含 至 少 nbytes 内 存 ， 并 适当 对 齐 ， 最 后 返回 一 个 指向 调整 大 
小 后 的 内 存 块 的 指针 。Mem_resize 为 改变 块 的 长 度 可 能 会 移动 其 位 置 ， 
如 此 Mem_resize 在 逻辑 上 等 价 于 分 配 一 个 新 的 块 ， 将 ptr 指 同 的 一 部 分 或 
全 部 数据 复制 到 新 的 内 存 块 ， 并 释放 ptr 指 同 的 内 存 块 。 如 果 Mem_resize 
无 法 分 配 新 内 存 块 ， 将 引发 Mem_Failed 异 常 ， 并 将 fle 和 line 作 为 异常 
的 “坐标 ?。 宏 RESIZE 将 ptr 改 为 指 辣 新 的 内 存 块 ， 这 是 Mem_resize 的 一 
种 常见 用 法 。 请 注意 ，RESIZE 宏 会 多 次 对 ptr 求 值 。 





如 果 nbytes 大 于 ptr 指 加 的 内 存 块 的 长 度 ， 那 么 超出 部 分 的 字 节 有 是 未 
初始 化 的 。 否 则 ，ptr 开 头 的 nbytes 字 节 会 复制 到 新 的 内 存 块 。 


问 Mem_resize 传 递 的 ptr 指 针 为 NULL， 或 nbytes 不 是 正 值 ， 这 些 是 





己 检 查 的 运行 时 错误 。 在 “ 稿 核实 现 ?" 中 ， 将 并 非 由 Mem_alloc、 
Mem_calloc 或 Mem_resize 返 回 的 非 NULL 指 针 Ptr 传 递 给 Mem_resize 是 一 
个 已 检查 的 运行 时 错误 ， 将 已 经 传递 给 Mem_free 或 Mem_resize 的 指针 再 
次 传递 给 Mem_resize 也 是 已 检查 的 运行 时 错误 。 在 “产品 实现 ”中 ， 这 些 
内 存 访问 错误 都 是 未 检查 的 运行 时 错误 。 

















Mem 接 口中 的 函数 可 以 与 标准 C 库 函数 malloc、calloc、realloc 和 和 free 
同时 使 用 。 即 ， 一 个 程序 可 以 使 用 这 两 种 内 存 分 配 函 数 。“ 稽 核实 现 ? 将 
内 存 访 问 错误 报告 为 已 检查 的 运行 时 错误 ， 这 种 行为 仅 适 用 于 该 实现 管 
理 的 内 存 。 任 何 给 定 程序 中 ， 只 能 使 用 Mem 接 口 的 一 个 实现 。 





5.2 ”产品 实现 





在 产品 实现 中 ， 这 些 例 程 将 对 标准 库 中 内 存 管理 函数 的 调用 封装 到 
通过 Mem 接 口 规 定 的 更 安全 的 软件 包 中 。 


(mem. c 


Y= 
#include <stdlib.h> 
#include <stddef.h> 
#include "assert.h" 
#include "except.h" 


#include "mem.h" 


(data 


54) 


(functions 


54) 


例如 ，Mem_alloc 调 用 malloc， 并 在 malloc 返 回 NULEL 指 针 时 引发 


Mem Failed 异常: 


(functions 


54) = 
void *Mem_alloc(long nbytes, const char *file, int line){ 


void *ptr; 


assert(nbytes > 0); 
ptr = malloc(nbytes); 
if (ptr == NULL) 


(raise 


Mem Failed 54) 


return ptr; 


(raise 


Mem Failed 54) = 


{ 
if (file == NULL) 
RAISE(Mem_Failed); 
else 
Except_raise(&Mem_Failed, file, line); 
} 
‘data 
54) = 


const Except_T Mem Failed = { "Allocation Failed" }; 


如 果 客 户 程 序 不 处 理 Mem_Failed 异 常 ，Except_raise 将 在 报告 未 处 理 的 
异常 时 输出 调用 者 的 “坐标 ?”( 文 件 和 行 号 ， 这 些 是 在 调用 Mem_alloc 时 
传递 进来 的 ) 。 例 如 : 


Uncaught exception Allocation Failed raised @parse.c:431 aborting 


同样 ，Mem_calloc 将 对 calloc 的 调用 封装 了 进来 


(functions 


54) +5 
void *Mem_calloc(long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 
assert(nbytes > 0); 

ptr = calloc(count, nbytes); 
if (ptr == NULL) 


(raise 


Mem Failed 54) 


return ptr; 





在 count 或 nbytes 为 零 时 ，calloc 的 行为 是 由 具体 实现 定义 的 。 在 这 种 情 
况 下 Mem 接 口 规定 了 函数 的 行为 ， 这 也 是 它 的 优点 之 一 ， 且 有 助 于 避免 
bug。 


Mem free 只 是 调用 free: 


(functions 


54) +5 


void Mem_free(void *ptr, const char *file, int line) { 
if (ptr) 
free(ptr); 


C 语 言 标 准 允 许 将 NULL 指 针 传 递 给 free，Mem_free 不 会 传递 NULL 指 
针 ， 因 为 free 的 比较 旧 的 实现 可 能 不 接受 NULL 指 针 。 


Mem_resize 的 规格 说 明 比 realloc 简 单 得 多 ， 这 也 反映 在 它 的 更 简单 
的 实现 中 : 


(functions 


54) +5 
void *Mem_resize(void *ptr, long nbytes, 


const char *file, int line) { 


assert(ptr); 

assert(nbytes > 0); 

ptr = realloc(ptr, nbytes); 
if (ptr == NULL) 


(raise 
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return ptr; 


} 


Mem_resize 唯 一 的 目的 就 是 改变 某 个 现存 内 存 块 的 长 度 。realloc 也 完成 
了 同样 的 工作 ， 但 它 在 nbytes 为 零 时 会 释放 内 存 块 ， 而 在 ptr 是 NULL 指 

针 时 会 分 配 内 存 块 。 这 些 额 外 的 功能 与 修改 现存 内 存 块 的 长 度 只 有 松散 
的 关联 ， 很 容易 引入 bug。 


5.3 FEI KIN 


Mem 接 口 的 稽核 实现 导出 的 各 个 函数 ， 会 捕获 本 章 开头 描述 的 各 种 
内 存 访 问 错误 ， 并 将 其 作为 已 检查 的 运行 时 错误 报告 。 





(memchk.c 


Y= 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "except.h" 


#include "mem.h" 


(checking types 


58) 


(checking macros 


58) 


(data 


54) 


(checking data 


56) 


(checking functions 


58) 


如 果 Mem_alloc、Mem_calloc 和 Mem_resize 从 来 不 把 同一 地 址 返回 
两 次 ， 且 能 够 记录 所 有 返回 的 地 址 以 及 哪些 地 址 指 回 已 分 配 的 内 存 ， 那 
么 Mem free 和 Mem_resize 束 可 以 检测 内 存 访 问 错 误 。 抽 象 地 说 ， 这 些 函 
数 维 护 了 一 个 集合 S， 其 元 素 为 对 Ca, free ) 或 Ca, allocated ) ， 其 中 w 
是 某 次 分 配 返 回 的 内 存 地 址 。 值 free 表示 地 址 a 不 指向 已 分 配 的 内 存 ， 
即 ， 该 内 存 已 经 显 式 释 放 ， 值 allocated 表示 a 指向 已 分 配 的 内 存 。 











Mem_alloc 和 Mem_calloc 会 添加 对 (ptr, allocated ) 到 集合 S， 其 中 
ptr 是 这 两 个 函数 的 返回 值 ， 在 添加 之 前 ， 二 者 保证 (ptr, allocated ) 和 
(ptr, free) 都 不 在 S 中 。 当 ptr 为 NULL 指 针 或 (ptr, allocated ) ŒS 中 ， 





Mem_free(pt 是 合法 的 。 如 果 ptr 非 空 且 (ptr, allocated ) ÆS 中 ， 
Mem_free 将 释放 ptr 指 向 的 内 存 块 ， 并 将 S$ ”中 的 对 应 项 改 为 ptr, free 
) o AH, M4 (ptr, allocated ) 在 S 中 时 ，Mem_resize(ptr，nbytes, 
...) 才 是 合法 的 。 倘 若 如 此 ，Mem_resize 会 调用 Mem_alloc 分 配 一 个 新 
块 ， 并 将 旧 内 存 块 的 内 容 复 制 到 新 块 ， 并 调用 Mem_free 释 放 旧 块 ， 这 些 
调用 会 对 集合 S 的 内 容 进 行 适当 的 修改 。 


分 配 函 数 从 来 不 返回 同一 地 址 两 次 的 条 件 ， 可 以 通过 从 不 释放 任何 
内 存 块 来 实现 。 这 种 方法 会 浪费 空间 ， 而 且 很 容易 实现 更 好 的 方法 : R 
从 不 释放 由 分 配 函 数 返回 的 内 存 块 A 。 通 过 维护 一 个 保存 这 种 内 存 块 
地 址 的 表 ， 即 可 实现 集合 S。 








这 种 方案 的 内 存 分 配器 ， 可 以 基于 标准 库 函 数 实 现 。 该 分 配器 维护 
了 块 描述 符 的 一 个 哈 希 表 : 








(checking data 


56) = 
static struct descriptor { 
struct descriptor *free; 
struct descriptor *link; 
const void *ptr; 
long size; 
const char *file; 


int line; 


} *htab[2048]; 


ptr 是 块 的 地 址 ， 在 代码 中 其 他 地 方 分 配 ( 在 下 文 讲述 ) ，size 是 块 的 长 
度 。file 和 line 是 该 块 的 分 配 “ 坐 标 ?"， 即 客户 程序 中 调用 相关 分 配 函 数 的 
源 代 码 所 处 的 位 置 《也 会 作为 参数 传递 给 分 配 函 数 ) 。 这 些 值 并 不 使 
用 ， 但 会 保存 在 描述 符 中 ， 以 便 调试 器 在 调试 会 话 期 间 输 出 相关 信息 。 


link 字 段 构建 了 一 个 块 描述 符 的 链表 ， 这 些 块 散 列 到 htab 中 的 同一 
索引 ，htab 本 喘 是 一 个 描述 符 指 针 的 数组 。 这 些 描述 符 还 形成 了 一 个 空 
朵 块 链 表 ， 该 链表 的 头 是 空 描述 符 





(checking data 


56) += 


static struct descriptor freelist = { &freelist }; 





该 链表 通过 描述 符 的 free 字 段 建立 。 该 链表 是 环形 的 : freelist 是 链表 中 
最 后 一 个 描述 符 ， 其 free 字 段 指向 链表 中 第 一 个 描述 符 。 在 任 一 给 定时 
刻 ，htab 包 含 了 所 有 块 的 描述 符 ， 包 括 空 亲 块 和 已 分 配 块 ， 同 时 空闲 块 
还 出 现在 freelist 链 表 上 。 如 果 描 述 符 的 free 字 段 为 NULL， 则 该 块 已 经 分 
配 ， 如 果 free 字 段 不 是 NULL， 则 该 块 是 空闲 的 ， 因 而 htab 就 实现 了 集合 
S。 图 5-1 给 出 了 这 些 数据 结构 在 某 个 时 间 点 上 的 快照 。 与 每 个 描述 符 结 
构 关 联 的 内 存 块 ， 在 图 中 表示 描述 符 之 后 的 方 框 。 阴 影 方 框 表示 已 分 配 
的 空间 ， 空 白 的 方 框 表示 空闲 空间 ， 实 线 表示 link 字 段 建 立 的 链表 ， 而 
虚线 表示 空闲 链表 。 


























图 5-1 htab#efreel ist 2574 


2a tH — “SHEE, find FE RRR. APR A E Dad Fk PF TR 
针 或 者 NULL 指 针 : 


‘checking functions 


58) = 
static struct descriptor *find(const void *ptr) { 


struct descriptor *bp = htab[hash(ptr, htab)]; 


while (bp && bp->ptr != ptr) 
bp = bp->link; 


return bp; 


(checking macros 


58) = 
#define hash(p, t) (((unsigned long)(p)>>3) & \ 
(sizeof (t)/sizeof ((t)[0])-1)) 


hash 宏 将 地 址 作为 一 个 位 模式 处 理 ， 右 移 三 位 ， 并 将 其 对 htab 的 大 小 取 
模 ， 以 减 小 其 值 。 给 出 find 之 后 ， 束 完全 可 以 写 出 一 个 Mem free 版 本 ， 
将 内 存 访问 错误 实现 为 已 检查 的 运行 时 错误 : 








(checking functions 


58) += 
void Mem_free(void *ptr, const char *file, int line) { 
if (ptr) { 
struct descriptor *bp; 


(set 


bp if 


ptr is valid 


58) 
bp->free = freelist.free; 


freelist.free = bp; 


} 


如 果 ptr 不 是 NULL， 而 且 是 一 个 有 效 地 址 ， 会 将 对 应 的 内 存 块 添加 到 衬 
朵 链表 而 释放 该 块 ， 这 样 的 空闲 块 可 能 由 后 续 的 Mem_alloc 调 用 来 重 
用 。 如 果 指 针 指 向 已 分 配 内 存 块 ， 那 么 就 是 有 效 的 : 


(set 


bp if 


ptr is valid 


58) = 
if (((unsigned long)ptr)%(sizeof (union align)) != 0 
|| (bp = find(ptr)) == NULL || bp->free) 


Except_raise(&Assert_Failed, file, line); 


if 语 句 中 对 ((unsigned long)ptr) % (sizeof(union align)) != 0 的 检查 过 滤 掉 了 
那些 不 是 严格 对 齐 值 倍数 的 地 址 ， 这 样 的 地 址 不 可 能 是 有 效 的 块 指针 。 





如 下 所 示 ，Mem_alloc 返 回 的 指针 ， 地 址 值 总 是 对 齐 到 下 列 联合 的 
大 小 倍数 。 


(checking types 


58) = 

union align { 
int 1; 
long 1; 
long *1p; 
void *p; 
void (*fp)(void); 
float f; 
double d; 
long double 1d; 


}; 


这 种 对 齐 人 确保 了 任何 类 型 的 数据 都 可 以 保存 在 Mem_alloc 返 回 的 块 中 。 
如 果 传 递 给 Mem_free 的 ptr 不 符合 这 种 对 齐 ， 它 不 可 能 在 htab 中 ， 因 而 是 
无 效 的 。 





Mem_resize 通 过 同样 的 检查 来 捕获 内 存 访问 错误 ， 然 后 调用 
Mem_free、Mem_alloc 和 库 函 数 memcpy: 


(checking functions 


58) += 

void *Mem_resize(void *ptr, long nbytes, 
const char *file, int line) { 
struct descriptor *bp; 


void *newptr; 
assert(ptr); 


assert(nbytes > 0); 


(set 


bp if 


ptr is valid 


58) 
newptr = Mem_alloc(nbytes, file, line); 
memcpy(newptr, ptr, 
nbytes < bp->size ? nbytes : bp->size); 
Mem_free(ptr, file, line); 
return newptr; 
} 


类 似 地 ，Mem_calloc 可 以 通过 调用 Mem alloc 和 库 函 数 memset 来 实 
Hl: 


(checking functions 


58) += 
void *Mem_calloc(long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 


assert(nbytes > 0); 


ptr = Mem_alloc(count*nbytes, file, line); 
memset(ptr, '\O', count*nbytes); 


return ptr; 


剩 下 的 工作 只 是 对 描述 符 以 及 Mem_alloc 的 代码 的 分 配 。 同 时 完成 
这 两 个 任务 的 一 种 方法 是 ， 分 配 一 个 足够 大 的 块 ， 可 以 容纳 一 个 描述 符 
以 及 调用 Mem_alloc 所 请 求 的 内 存 空间 。 这 种 方法 有 两 个 缺点 。 第 一 ， 
它 使 划分 一 块 空 几 内 存 以 满足 几 个 较 小 请 求 的 工作 复杂 化 ， 因 为 每 个 请 
求 都 需要 自身 的 摘 述 符 。 第 二 ， 它 使 描述 符 易 受 破 坏 ， 当 通过 指针 或 索 
引 写 内 存 越界 时 ， 就 会 发 生 这 种 情况 。 


独立 分 配 描述 符 ， 解 除了 描述 符 分 配 与 Mem_alloc 进 行 的 内 存 分 配 
之 间 的 耦合 ， 并 减少 了 《但 不 会 消除 ) 描述 符 补 破坏 的 可 能 性 。dalloc 
会 分 配 、 初 始 化 并 返回 一 个 描述 符 ， 这 来 自由 malloc 分 配 的 包含 512 个 
描述 符 的 内 存 块 : 


‘checking functions 


58) += 
static struct descriptor *dalloc(void *ptr, long size, 
const char *file, int line) { 
static struct descriptor *avail; 


static int nleft; 


if (nleft <= 0) { 


(allocate descriptors 


60) 
nleft = NDESCRIPTORS; 
} 
avail->ptr = ptr; 
avail->size = size; 
avail->file = file; 
avail->line = line; 
avail->free = avail->link = NULL; 
nleft--; 
return avail+t+; 
} 


‘checking macros 


58) += 
#define NDESCRIPTORS 512 


对 malloc 的 调用 可 能 返回 NULL 指 针 ， 这 种 情况 下 ，dalloc 将 NULL 返 回 
给 调用 者 。 


(allocate descriptors 


60) = 
avail = malloc(NDESCRIPTORS*sizeof (*avail)); 
if (avail == NULL) 


return NULL; 


如 下 所 示 ，Mem alloc 在 dalloc 返 回 NULL 指 针 时 引发 Mem Failed 异 常 。 








Mem_alloc 使 用 最 先 适 配 算法 分 配 内 存 ， 这 是 诸多 内 存 分 配 算 法 之 
一 。 它 会 搜索 freelist 来 查找 第 一 个 能 够 满足 请 求 的 足够 大 的 空间 块 ， 并 
划分 该 块 来 满足 请 求 。 如 果 freelist 不 包含 适当 的 块 ，Mem_alloc 调 用 
malloc 分 配 比 nbytes 大 的 一 个 内 存 块 ， 将 该 块 添 加 到 空闲 链表 ， 然 后 再 
次 尝试 。 因 为 新 的 内 存 块 比 nbytes 大 ， 这 一 次 将 使 用 该 块 来 满足 请 求 。 
这 里 是 代码 : 


‘checking functions 


58) += 
void *Mem_alloc(long nbytes, const char *file, int line){ 
struct descriptor *bp; 


void *ptr; 


assert(nbytes > 0); 


(round 


nbytes up to an alignment boundary 


61) 
for (bp = freelist.free; bp; bp = bp->free) { 
if (bp->size > nbytes) { 
(use the end of the block at 
bp->ptr 61) 


} 
if (bp == &freelist) { 
struct descriptor *newptr; 


(newptr ~ a block of size 


NALLOC + nbytes 62) 
newptr->free = freelist.free; 


freelist.free = newptr; 


assert(0); 
return NULL; 
} 


Mem_alloc 首 先 将 nbytes 癌 上 侈 入 ， 使 得 其 返回 的 每 个 指针 都 对 齐 到 联合 
align 大 小 的 倍数 : 


(round 


nbytes up to an alignment boundary 


61) = 
nbytes = ((nbytes + sizeof (union align) - 1)/ 


(sizeof (union align)))*(sizeof (union align)); 


freelist.free 指 癌 空 闲 链表 的 起 始 ，for 循 环 从 这 里 开始 。 第 一 个 大 小 
大 于 nbytes 的 空闲 块 用 来 满足 该 请 求 。 该 空闲 块 末 端 nbytes 长 的 空间 被 
切 分 为 一 个 新 块 ， 在 创建 其 描述 符 、 初 始 化 并 添加 到 htab 后 ， 返 回 该 内 
存 块 地 址 : 


(use the end of the block at 


bp->ptr 61) = 
bp->size -= nbytes; 
ptr = (char *)bp->ptr + bp->size; 
if ((bp = dalloc(ptr, nbytes, file, line)) != NULL) { 
unsigned h = hash(ptr, htab); 
bp->link = htab[h]; 
htab[h] = bp; 
return ptr; 
} else 


(raise 
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图 5-2 说 明了 该 代码 块 的 效果 : AMES “IAT, Fa) RO) a A E 
空闲 空间 。 在 右 侧 ， 已 经 分 配 的 空间 用 阴影 标识 ， 有 一 个 新 的 描述 符 指 
向 该 内 存 块 。 请 注意 ， 新 描述 符 的 空闲 链表 链接 为 NULL © 。 








图 5-2 分配 空闲 块 的 尾部 


对 bp->size > nbytes 的 检查 保证 了 bp->ptr 永 远 不 会 重用 。 大 的 空闲 块 
被 划分 来 满足 较 小 的 请 求 ， 直 至 其 长 度 减少 到 sizeof(union align) 字 节 ， 
此 后 bp->size 决 不 会 大 于 nbytes。 每 个 内 存 块 中 前 sizeof(union align) 字 市 
决 不 会 分 配 。 


在 循环 时 ， 如 果 bp 到 达 freelist， 说 明 该 链表 不 包含 长 度 大 于 nbytes 
的 内 存 块 。 在 这 种 情况 下 ， 需 要 分 配 一 个 新 的 内 存 块 ， 其 长 度 为 





(checking macros 


58) += 
#define NALLOC ((4096 + sizeof (union align) - 1)/ \ 


(sizeof (union align)))*(sizeof (union align) ) 


加 上 nbytes， 该 块 将 添加 到 空 采 链表 的 起 始 处 ， 在 for 循 环 的 下 一 次 迭代 
中 ， 将 使 用 该 空闲 块 来 满足 分 配 请 求 。 新 块 有 一 个 描述 符 ， 就 像 是 该 块 
此 前 已 分 配 并 被 释放 一 样 : 


‘newptr — a block of size 


NALLOC + nbytes 62) = 
if ((ptr = malloc(nbytes + NALLOC)) == NULL 
|| (newptr = dalloc(ptr, nbytes + NALLOC, 
FILE, __LINE__)) == NULL) 





(raise 
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5.4 扩展 陪读 


Mem 接 口 的 目的 之 一 是 改进 标准 C 分 配 函 数 的 接口 。[Maguire， 
1993] 一 书 批评 了 这 些 函 数 并 描述 了 一 个 类 似 的 重新 封 效 接口 。 








在 C 程 序 中 内 存 分 配 bug 是 如 此 普 表 ， 以 至 于 有 些 公司 专 门 构建 并 销 
售 有 助 于 诊断 和 修复 此 类 bug 的 工具 。 其 中 最 好 的 之 一 是 Purify [Hastings 
and Joyce，1992]， 该 工具 能 够 检测 几乎 所 有 种 类 的 内 存 访 问 错误 ， 包 
括 5.3 市 摘 述 的 那些 。Purify 会 检查 每 个 load 和 store 指 令 ， 因 为 它 是 通过 
编辑 目标 码 来 完成 其 工作 的 ， 所 以 即使 当 源 代码 不 可 用 时 也 可 以 使 用 该 
工具 ， 如 私有 的 库 。 通 过 修改 源 代码 来 捕获 内 存 访问 错误 ， 是 另 一 种 大 
不 相同 的 实现 技术 ， 例 如 ，[Austin，Breach and Sohi，1994] 一 文 描述 了 
一 种 系统 ， 其 中 的 “安全 ”指针 承载 了 足够 的 信息 ， 可 以 捕获 大 量 内 存 访 
问 错误 。LCLint [Evans，1996] 有 许多 类 似 PC-Lint 之 类 工具 的 特性 ， 可 
以 在 编译 时 检测 许多 潜在 的 内 存 分 配 错误 。 





[Knuth，1973a] 一 书 综述 了 所 有 重要 的 内 存 分 配 算 法 ， 并 解释 了 最 
先 适 配 通 常 优 于 其 他 方法 (例如 最 佳 适 配 ， 该 方法 寻找 长 度 最 接近 请 求 
的 空闲 块 ) 的 原因 。Mem_alloc 中 使 用 的 最 先 适 配 算法 与 [Kernighan and 
Ritchie，1988] 书 中 8.7 节 描述 的 算法 类 似 。 








对 于 大 多 数 内 存 管理 算法 来 说 ， 都 有 大 量变 体 ， 通 音 用 来 针对 特定 
应 用 或 分 配 模 式 改 进 性 能 。 人 快速 适 配 (quick fit, 2 [Weinstock and 
Wulf，1988]) 是 使 用 最 广泛 的 变 体 之 一 。 许 多 应 用 程序 分 配 的 内 存 块 
中 ， 仅 有 少量 不 同 长 度 ， 快 速 适 配 利用 了 这 一 事实 。 人 快速 适 配 维护 N 个 
空闲 链表 ， 每 个 链表 用 于 一 种 最 第 请 求 的 块 长 。 在 分 配 其 中 某 种 长 度 的 











内 存 块 时 ， 只 需 从 对 应 的 链表 上 移 除 第 一 块 ， 而 释放 内 存 块 时 ， 将 其 添 
加 到 对 应 的 链表 即 可 。 在 链表 为 空 或 请 求 的 长 度 链表 不 支持 时 ， 会 使 用 
一 种 备用 算法 ， 如 最 先 适 配 。 








[Grunwald and Zorn，1993] 描 述 了 一 个 系统 ， 能 够 针对 某 种 特定 应 
用 的 使 用 模式 ， 生 成 调 优 过 的 malloc 和 free 实 现 。 该 系统 首先 用 能 够 收 
集 统计 数据 的 malloc 和 free 版 本 来 运行 应 用 程序 ， 收 集 的 统计 数据 包括 
块 长 、 分 配 与 释放 的 相对 频繁 程度 等 。 接 下 来 ， 系 统 将 收集 的 数据 输入 
到 一 个 程序 中 ， 程 序 将 生成 针对 该 应 用 程序 定制 的 malloc 和 free 版 本 的 
源 代码 。 这 种 定制 版 本 通常 使 用 快速 适 配 ， 文 持 少量 特定 于 该 应 用 程序 
的 块 长 。 





5.5 JÆ 


5.1 [Maguire，1993] 提 倡 将 未 初始 化 的 内 存 初始 化 为 菜 种 独特 的 
位 模式 ， 以 帮助 诊断 访问 未 初始 化 内 存 造成 的 bug。 一 种 好 的 位 模式 需 
要 具备 什么 样 的 特性 ? 请 提出 一 种 适当 的 位 模式 ， 并 修改 Mem_alloc 的 
移 核 实现 ， 使 之 使 用 该 位 模式 。 设 法 找到 一 种 应 用 程序 ， 使 得 这 种 修改 
能 够 捕获 到 一 个 bug。 


5.2 ”在 代码 块 (use the end of the block at bp->ptr 61〉 中 ， 当 一 个 空 
朵 块 的 长 度 减 小 到 sizeof(union align) 字 节 后 ， 它 就 无 法 满足 分 配 请 求 
了 ， 但 仍然 会 留 在 空闲 链表 中 。 修 改 代码 以 删除 这 种 内 存 块 。 你 能 找到 
这 样 的 应 用 程序 ， 使 得 通过 测量 能 够 检测 到 这 种 改进 对 该 程序 的 效果 
HE ? 


5.3 ”最 先 适 配 的 大 多 数 实 现 〈 如 [Kernighan and Ritchie, 1988]HJ 
8.7 布 中 给 出 的 ) 都 会 合并 相 邻 的 空闲 块 ， 以 形成 更 大 的 空闲 块 。 
Mem_alloc 的 稽核 实现 无 法 合并 相 邻 的 空闲 块 ， 因 为 它 不 能 将 同一 地 址 
返回 两 次 。 为 Mem_alloc 设 计 一 个 算法 ， 使 之 既 可 以 合并 相 邻 的 空闲 
块 ， 又 无 需 返 回 同 一 地 址 两 次 。 








5.4 ”一些 程序 员 可 能 主张 ， 在 Mem_free 中 针对 内 存 访问 错误 引发 
Assert_Failure 异 常 属于 过 度 反 应 ， 因 为 只 要 将 错误 的 调用 记 入 日 志 并 忽 
略 ， 执 行 可 以 继续 。 请 实现 





extern void Mem_log(FILE *log); 


WR Ih] Mem_log ti KJFILETS4> 47ENULL, Ma WO log 5 AYA A 





HN 7g SRR AE R, «Th ANF S| A Assert_Failure ii. KHER 
可 以 记录 错误 调用 和 分 配 操作 的 “坐标 >。 例 如 ， 如 果 在 调用 Mem_free 时 
传递 的 指针 指 同 一 个 已 经 释放 的 内 存 块 ， 可 能 会 输出 下 列 消息 : 





** freeing free memory 
Mem_free(0x6418) called from parse.c:461 


This block is 48 bytes long and was allocated from sym.c:123 


类 似 地 ， 如 果 在 调用 Mem_resize 时 传递 的 指针 无 效 ， 可 能 会 报告 : 


** resizing unallocated memory 


Mem_resize(Oxf7ffF930,640) called from types.c:1101 





Mem_log(NULL) 可 关闭 日 志 ， 恢 复 使 内 存 访问 错误 引发 断言 失败 的 行 








5.5 “稽核 实现 拥有 报告 潜在 内 存 泄漏 所 需 的 所 有 信息 。 如 本 章 章 
首 所 述 ， 内 存 泄漏 是 不 再 被 任何 指针 引用 的 已 分 配 内 存 块 ， 因 而 无 法 释 
放 。 泄 漏 会 导致 程序 最 终 用 尽 内 存 。 对 只 是 短 时 间 运 行 的 程序 来 说 ， 内 
存 泄漏 不 是 问题 ， 但 对 于 需要 长 时 间 运 行 的 程序 来 说 (如 用 户 界 面 和 服 
Bas) ， 这 是 个 严重 的 问题 。 请 实现 











extern void Mem_leak(apply(void *ptr, long size, 


const char *file, int line, void *cl), void *cl); 








该 函数 对 每 个 已 分 配 内 存 块 调用 apply 指 向 的 函数 ，ptr 是 内 存 块 的 地 
址 ，size 是 块 的 分 配 长 度 ，file 和 1line 是 其 分 配 坐 标 。 客 户 程序 可 以 向 
Mem_jleak 传 递 一 个 特定 于 应 用 程序 的 指针 cl， 访 指针 顺 次 传递 给 
apply， 用 作 最 后 一 个 参数 。Mem_leak 不 知道 d 的 用 途 ， 但 apply 很 可 能 


知道 。apply 和 cl 合 称 一 个 闭 包 (closure) : 它们 规定 了 一 个 操作 和 一 些 
用 于 该 操作 的 上 下 文 相关 数据 。 例 如 ， 


void inuse(void *ptr, long size, 
const char *file, int line, void *cl) { 


FILE *log = cl; 


fprintf(log, "** memory in use at %p\n", ptr); 
fprintf(log, "This block is %ld bytes long " 
"and was allocated from %s:%d\n", Size, 


file, line); 


WY 


会 输 出 如 BY A : 


** memory in use at 0x13428 


This block is 32 bytes long and was allocated from gen.c:23 


到 前 一 习题 所 述 的 日 志文 件 。 调 用 inuse 时 ， 将 其 和 日 志文 件 的 FILE 指 
针 一 同 传递 给 Mem_leak 即 可 : 


Mem_leak(inuse, log); 








[1] 这 里 实际 上 改变 的 是 *p 的 类 型 ， 不 是 p 的 类 型 。 译 者 注 


[2] 这 和 貌似 和 前 一 种 方法 没有 本 质 的 差别 ， 因 为 一 般 来 说 前 一 种 方 
法 也 会 释放 直接 用 malloc/new 返 回 的 内 存 块 。 译 者 注 








[3] 即 free 字 段 。 译 者 注 


第 6 革 MANGE 


malloc 和 free 的 大 多 数 实现 ， 都 会 使 用 基于 分 配对 象 大 小 的 内 存 管 
理 算 法 。 前 一 章 中 使 用 的 最 先 适 配 算法 就 是 一 个 例子 。 在 一 些 应 用 程序 
中 ， 内 存 释 放 操 作 是 成 组 同时 发 生 的 。 图 形 用 户 界面 就 是 一 个 例子 。 用 
于 滚动 条 、 按 钮 等 控件 的 内 存 空 间 ， 在 一 个 窗口 创建 时 分 配 ， 在 该 窗口 
销毁 时 释放 。 编 译 器 是 另 一 个 例子 。 例 如 ，lcc 在 编译 一 个 函数 时 分 配 内 
存 ， 在 完成 编译 该 函数 时 立即 释放 所 有 这 些 内 存 。 














对 于 此 类 应 用 程序 来 说 ， 基 于 对 象 生 命 周 期 的 内 存 管理 算法 通常 更 
好 。 基 于 栈 的 分 配 是 此 类 分 配 算法 的 一 个 例子 ， 但 仅 当 对 象 生命 周期 有 
嵌 套 关系 时 才 适 用 ， 通 第 情况 下 并 非 如 此 。 








本 章 将 描述 一 种 内 存 管理 接口 及 其 实现 ， 接 口 的 实现 使 用 了 基于 内 
存 池 Carena) 的 算法 ， 其 分 配 的 内 存 来 自 一 个 内 存 池 ， 使 用 完毕 后 立即 
释放 整个 内 存 池 。 调 用 malloc， 则 必须 有 对 应 的 free 调 用 。 如 前 一 章 所 
述 ， 很 容易 态 记 调用 free， 或 者 ，〈 更 糟 的 是 ) 释放 一 个 已 经 被 释放 的 
对 象 或 不 应 该 被 释放 的 对 象 。 





利用 基于 内 存 池 的 分 配器 ， 不 必 像 malloc/free 那 样 ， 对 每 次 调用 
malloc 返 回 的 指针 调用 free， 只 需要 一 个 调用 ， 即 可 释放 上 一 次 释放 操 
作 以 来 内 存 池 中 分 配 的 所 有 内 存 。 TEAR RUE OLE AER A 
itis thizAa T o BZA RRB Neb, Ett SS. Arigna 
算法 (applicative algorithm) ， 一 般 只 分 配 新 数据 结构 ， 而 不 修改 现存 





KEEA. FE A FETUS oo Pic a Be EA find Ee A S| DAS A 
些 可 能 更 省 空间 、 但 也 更 复杂 的 算法 ， 因 为 后 者 必须 记录 何 时 调用 


free。 





基于 内 存 池 的 方案 有 两 个 缺点 : 它 可 能 使 用 更 多 的 内 存 ， 而 且 可 能 
造成 芝 挂 指针 。 如 采 一 个 对 象 通过 错误 的 内 存 池 分 配 ， 而 在 程序 用 完 该 
对 象 之 前 相应 的 内 存 池 已 经 释放 ， 程 序 将 引用 未 分 配 的 内 存 或 已 经 个 其 
他 内 存 池 《可 能 是 曼 无 关系 的 内 存 池 ) 重用 的 内 存 。 还 有 一 种 可 能 ， 即 
内 存 池 中 分 配 的 对 象 的 释放 时 间 述 于 预期 ， 这 会 造成 内 存 泄漏 。 但 实际 
上 上 ， 内 存 池 的 管理 是 如 此 容易 ， 以 至 于 这 些 问 题 很 少 友 生 。 








6.1 接口 





Arena 接 口 规定 了 两 个 异 第 ， 以 及 管理 内 存 池 并 从 内 存 池 中 分 配 内 
存 的 函数 : 


(arena.h 


) = 
#ifndef ARENA_INCLUDED 
#define ARENA_INCLUDED 


#include "except.h" 


#define T Arena_T 


typedef struct T *T; 


extern const Except_T Arena_NewFailed; 


extern const Except_T Arena_Failed; 


(exported functions 


66) 


#undef T 


#endif 
内 存 池 通过 下 列 函 数 创建 和 销毁 : 


(exported functions 


66) = 
extern T Arena_new (void); 


extern void Arena_dispose(T *ap); 


Arena_new!) “S38 HY AN Ft JAR EH Td at SEAN APT SS a 8 
针 。 该 指针 将 传递 给 其 他 需要 指定 内 存 池 参 数 的 函数 。 如 果 Arena_new 
无 法 分 配 内 存 池 ， 将 引发 Arena_NewFailed 异 常 。Arena_dispose 释 放 与 
*ap 内 存 池 关联 的 内 存 ， 释 放 内 存 池 本 身 ， 并 将 *ap 清 零 。 传 递 给 
Arena_dispose 的 ap 或 *ap 为 NULL 指 针 ， 是 一 个 已 检查 的 运行 时 错误 。 














内 存 分 配 函 数 是 Arena_alloc 和 Arena_calloc， 它 们 比较 类 似 于 Mem 
接口 中 名 称 相 似 的 函数 ， 只 是 从 内 存 池 分 配 内 存 而 已 。 


(exported functions 


66) += 


extern void *Arena_alloc (T arena, long nbytes, 
const char *file, int line); 

extern void *Arena_calloc(T arena, long count, 
long nbytes, const char *file, int line); 


extern void Arena_free (T arena); 


Arena_alloc 在 内 存 池 中 分 配 一 个 至 少 nbytes 长 的 内 存 块 ， 并 返回 指 同 第 
一 个 字 节 的 指针 。 该 内 存 块 对 齐 到 地 址 边界 ， 能 够 适合 于 具有 最 严格 对 
齐 要 求 的 数据 。 该 块 的 内 容 是 未 初始 化 的 。Arena_calloc 在 内 存 池 中 分 
配 一 个 足够 大 的 内 存 块 ， 可 以 容纳 count 个 元 素 的 数组 ， 每 个 数组 元 素 
的 大 小 为 nbytes 字 节 ， 并 返回 指向 第 一 个 字 节 的 指针 。 该 内 存 块 的 对 章 
与 Arena_alloc 类 似 ， 其 内 容 初始 化 为 0。count 或 nbytes 不 是 正 数 ， 是 已 
检查 的 运行 时 错误 。 








Arena_alloc 和 Arena_calloc 的 最 后 二 个 参数 是 函数 被 调用 处 的 文件 
名 和 行 号 。 如 果 Arena_alloc 或 Arena_calloc 无 法 分 配 所 要 的 内 存 ， 则 引 
发 Arena_Failed 异 负 ， 并 将 file 和 1line 参 数 传 递 给 Except_raise， 这 样 ， 抛 
出 的 异常 束 给 出 了 调用 相应 函数 的 位 置 。 如 果 fle 是 NULL 指 针 ， 这 两 个 
函数 将 提供 其 实现 内 部 引发 Arena_Failed 的 源 代 码 的 位 置 。 


Arena_free 释 放 内 存 池 中 所 有 的 内 存 ， 相 当 于 释放 内 存 池 中 自 创 建 
或 上 一 次 调用 Arena_free 以 来 已 分 配 的 所 有 内 存 块 。 





回 该 接口 中 任何 例 程 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错 
误 。 该 接口 中 的 例 程 可 以 与 Mem 接 口中 的 例 程 和 其 他 基于 malloc 和 free 
的 分 配器 协同 使 用 。 


6.2 ”实现 


(arena.c 


Y= 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "except.h" 
#include "arena.h" 


#define T Arena_T 


const Except_T Arena_NewFailed 
{ "Arena Creation Failed" }; 
const Except_T Arena_Failed = 


{ "Arena Allocation Failed" }; 


(macros 


71) 


(types 


67) 
(data 


70) 


(functions 


68) 


一 个 内 存 池 描述 了 一 大 块 内 存 : 


‘types 

67) = 
struct T { 
T prev; 


char *avail; 


char *limit; 


prev 字 上 段 指 同 大 内 存 块 的 起 始 ， 此 处 保存 了 一 个 Arena_T 结 构 实例 ( 具 
体 在 下 文 讲述 ) ，limit 字 有 段 指向 大 内 存 块 的 结束 处 出 。avail 字 段 指向 大 
内 存 块 中 第 一 个 空 闪 位置， 从 avail 开 始 、 在 limit 之 前 的 空间 可 用 于 分 
配 。 








为 分 配 N 字 节 的 内 存 空间 ， 在 N 不 大 于 limit-avail 时 ， 将 avail 加 N， 
返回 avail 的 原 值 即 可 。 如 果 N 大 于 limitravail， 则 需要 调用 malloc 分 配 一 
个 新 的 大 内 存 块 ，*arena 的 当前 值 被“ 下 推 ”( 存 储 到 新 的 大 内 存 块 的 起 
始 处 ) ， 并 初始 化 arena 的 各 个 字段 使 之 描述 新 的 大 内 存 块 ， 然 后 分 配 操 
作 继 续 进 行 。 


因而 ， 位 于 各 个 大 内 存 块 头 部 的 Arena_T 结 构 实 例 形 成 了 一 个 链 
表 ， 链 表 指 针 是 其 中 的 prev 字 段 。 图 6-1 展 示 了 分 配 三 个 大 内 存 块 之 后 内 
存 池 的 状态 。 阴 影 部 分 表示 已 经 分 配 的 空间 ， 各 个 大 内 存 块 可 能 大 小 不 
同 ， 而 且 其 结束 处 可 能 是 未 分 配 的 空间 《〈“ 如 打分 配 操作 未 能 刚好 用 尽 该 
R) o 











prev 
avail 


limit 


图 6-1 包含 三 个 大 内 存 块 的 内 存 池 


Arena _ new 分配 并 返回 一 个 Arena T 结 构 实例 ， 其 各 个 字段 均 设 置 为 


NULL 指 针 ， 这 表示 一 个 空 的 内 存 池 : 


(functions 


68) = 
T Arena_new(void) { 
T arena = malloc(sizeof (*arena)); 
if (arena == NULL) 
RAISE (Arena_NewFailed) ; 
arena->prev = NULL; 
arena->limit = arena->avail = NULL; 


return arena; 


Arena_dispose 调 用 Arena_free 释 放 内 存 池 中 的 各 个 大 内 存 块 ， 接 下 来 它 


释放 Arena_T 络 构 本 号 并 将 指 癌 内 存 池 的 指针 清 零 : 


(functions 


68) += 


void Arena_dispose(T *ap) { 


assert(ap && *ap); 
Arena_free(*ap); 
free(*ap); 
*ap = NULL; 

} 


内 存 池 使 用 malloc 和 free 而 不 是 其 他 分 配器 (例如 Mem_alloc 和 
Mem_free〉， 这 使 得 它 独 立 于 其 他 分 配 妖 。 





大 多 数 分 配 都 是 平凡 的 : 将 请 求 分 配 的 内 存 长 度 癌 上 舍 入 到 适当 的 
对 齐 边 界 ， 将 avail 指 针 加 上 售 入 后 的 长 度 ， 并 返回 avail 的 原 值 。 





(functions 


68) += 

void *Arena_alloc(T arena, long nbytes, 
const char *file, int line) { 
assert(arena); 
assert(nbytes > 0); 


(round 


nbytes up to an alignment boundary 


69) 
while (nbytes > arena->limit - arena->avail) 


(get a new chunk 


69) 
} 
arena->avail += nbytes; 
return arena->avail - nbytes; 
} 


像 Mem 接 口 的 稽核 实现 那样 ， 下 述 联合 的 大 小 


(types 


67) += 
union align { 
int i; 
long 1; 
long *1p; 
void *p; 
void (*fp)(void); 
float f; 


double d; 
long double 1d; 
}; 





给 出 了 宿主 机 上 最 低 的 对 齐 要 求 。 其 字段 是 那些 最 可 能 具有 最 严格 对 齐 
要 求 的 类 型 ， 该 联合 用 于 对 nbytes 同 上 舍 入 : 


(round 


nbytes up to an alignment boundary 


69) = 
nbytes = ((nbytes + sizeof (union align) - 1)/ 


(sizeof (union align)))*(sizeof (union align)); 


对 大 多 数 调用 来 说 ，nbytes 小 于 arena->limit-arena->avail， 即 ， 内 存 
池 中 的 大 内 存 块 至 少 有 nbytes 长 的 空闲 空间 ， 如 此 上 述 Arena_alloc 中 的 
while 循 环 体 不 会 执行 。 如 有 条 当前 的 大 内 存 块 无 法 满足 分 配 请 求 ， 则 必 
须 分 配 一 个 新 的 大 内 存 块 。 这 会 浪费 当前 大 内 存 块 末端 的 空 亲 空间， 图 
6-1 链 表 中 的 第 二 个 大 内 存 块 就 说 明了 这 一 点 。 





在 分 配 一 个 新 的 大 内 存 块 之 后 ，*arena 的 当前 值 保存 到 该 块 的 起 始 
处 ， 并 初始 化 arena 的 各 个 字段 使 之 指 癌 新 块 ， 分 配 操作 将 继续 进行 : 


(get a new chunk 


69) = 
T ptr; 
char *limit; 


(ptr — a new chunk 


70) 

*otr = *arena; 

arena->avail = (char *)((union header *)ptr + 1); 
arena->limit = limit; 


arena->prev = ptr; 


(types 


67) += 
union header { 
struct T b; 


union align a; 


}; 


代码 中 的 结构 赋值 操作 *ptr=*arena， 将 *arena“ 下 推 "， 保 存在 新 的 大 内 
存 块 的 起 始 处 。header 联 合 确 保 了 arena->avail 指 向 一 个 适当 对 齐 的 地 
址 ， 这 使 得 在 新 的 大 内 存 块 中 的 第 一 次 分 配 不 会 出 错 。 





如 下 所 示 ，Arena_free 将 释放 的 大 内 存 块 维护 在 一 个 发 源 于 
freechunks 的 空闲 链表 上 ， 以 减少 调用 malloc 的 次 数 。 该 链表 将 大 内 存 块 
头 部 的 Arena_T 结 构 实 例 的 prev 字 段 用 作 链 表 指 针 ， 这 些 结构 实例 的 
limit 字 有 段 只 是 指 同 其 所 处 大 内 存 块 的 结束 处 。nfree 是 链表 中 大 内 存 块 的 
数目 。Arena_alloc 会 从 该 链表 获取 空间 的 大 内 存 块 或 调用 malloc 来 分 
配 ， 而 且 在 上 述 的 <get a new chunk 69> 代 码 块 中 设置 了 Arena_alloc 的 局 
部 变量 limit， 供 后 续 使 用 : 





(data 


70) += 
static T freechunks; 


static int nfree; 


(ptr — a new chunk 


70) = 
if ((ptr = freechunks) != NULL) { 


freechunks = freechunks->prev; 


nfree--; 
limit = ptr->limit; 
} else { 
long m = sizeof (union header) + nbytes + 10*1024; 
ptr = malloc(m); 
if (ptr == NULL) 


(raise 


Arena_Failed 70) 


limit = (char *)ptr + m; 


如 果 必 须 分 配 一 个 新 的 大 内 存 块 ， 则 会 分 配 一 个 足够 大 的 内 存 块 ， 以 容 
纳 Arena_ TI 结构 实例 、nbytes 字 节 要 分 配 的 空间 以 及 10KB 剩 余 的 可 用 空 
间 。 如 果 malloc 返 回 NULL， 分 配 操作 失败 ，Arena_alloc 将 引发 


Arena_Failed 异 常 : 


(raise 


Arena_Failed 70) 
{ 


if (file == NULL) 


RAISE(Arena_Failed); 


else 


Except_raise(&Arena_Failed, file, line); 


在 内 存 池 的 各 个 字段 指 回 新 的 大 内 存 块 后 ，Arena_alloc 中 的 while 循 
环 将 再 次 答 试 进行 分 配 。 这 一 次 仍然 可 能 失败 : 如 果 新 的 大 内 存 块 来 自 
freechunks， 可 能 也 会 比较 小 以 至 于 无 法 满足 请 求 ， 这 束 是 需要 用 while 
循环 而 不 是 if 语 句 的 原因 。 





Arena calloc 只 是 调用 Arena alloc: 


(functions 


68) += 
void *Arena_calloc(T arena, long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 
ptr = Arena_alloc(arena, count*nbytes, file, line); 
memset(ptr, '\O', count*nbytes); 


return ptr; 


释放 内 存 池 时 ， 震 要 将 其 中 的 大 内 存 块 添 加 到 空间 大 内 存 块 的 链 
表 ， 因 为 此 操作 会 表 历 内 存 池 中 的 大 内 存 块 链 表 ， 因 而 *arena 会 恢复 到 


初始 状态 。 


(functions 


68) += 
void Arena_free(T arena) { 
assert(arena); 
while (arena->prev) { 
struct T tmp = *arena->prev; 


(free the chunk described by 


arena 71) 


*arena = tmp; 


} 
assert(arena->limit == NULL); 
assert(arena->avail == NULL); 


J 


到 tmp 的 结构 赋值 将 arena->prev 指 向 的 Arena_T 实 例 的 所 有 字段 值 复制 到 
tmp。 因 而 ， 这 个 赋值 操作 以 及 赋值 *arena=tmp， 在 由 大 内 存 块 链表 形 
成 的 Arena_T 结 构 的 栈 中 ， 弹 出 了 栈 顶 的 Arena_T 结 构 。 在 过 历 整个 链表 
后 ，arena 的 所 有 字段 值 都 应 该 是 NULL。 








freechunks 会 累积 来 自 所 有 内 存 池 的 空闲 大 内 存 块 ， 该 链表 可 能 变 








得 很 大 。 链 表 的 长 度 变 大 不 是 问题 ， 但 其 中 包含 的 空 亲 内 存 太 多 就 可 能 
引起 问题 。 例 如 对 于 其 他 分 配器 来 说 ，freechunks 链 表 上 的 大 内 存 块 就 
像 是 已 经 分 配 的 内 存 ， 因 而 可 能 造成 对 malloc 的 调用 失败 。 为 避免 占用 
太 多 内 存 ，Arena_free 在 freechunks 链 表 上 仅仅 保留 





(macros 


71) = 
#define THRESHOLD 10 


THRESHOLD 个 空闲 大 内 存 块 。 在 nfree 值 到 达 THRESHOLD 后 ， 后 续 到 
达 的 大 内 存 块 将 通过 调用 free 释 放 : 


‘free the chunk described by 


arena 71) = 
if (nfree < THRESHOLD) { 
arena->prev->prev = freechunks; 
freechunks = arena->prev; 
nfreet+; 
freechunks->limit = arena->limit; 
} else 


free(arena->prev); 


在 图 6-2 中 ，Arena_free 即 将 释放 左 侧 的 大 内 存 块 。 在 nfree 小 于 
THRESHOLD 时 ， 该 块 将 添加 到 freechunks 链 表 。 释 放 后 的 大 内 存 块 显 
示 在 右 侧 ， 虚 线 描绘 了 上 述 代 码 中 的 三 个 赋值 操作 对 相关 指针 的 影响 。 


arena 


freechunks / 





图 6-2 4nfree/J THRESHOLD, Hik A A 


6.3 扩展 阅读 


基于 内 存 池 的 分 配器 (也 称 为 pool allocators) 在 历史 上 已 经 描述 过 
奋 干 次 。[Hanson，1990] 一 文中 的 内 存 池 分 配器 最 初 是 为 供 lcc [Fraser 
and Hanson，1995] 使 用 而 开发 的 。lcc 的 分 配器 比 Arena 稍 微 简 单 些 : 其 
内 存 池 是 静态 分 配 的 ， 其 反 分 配器 不 会 调用 free。 在 其 最 初版 本 中 ， 分 
配 是 通过 宏 直 接 操 作 内 存 池 结 构 完 成 的 ， 只 在 需要 新 的 大 内 存 块 时 才 调 
用 函数 。 





[Barrett and Zom，1993] 一 文 描述 了 如 何 自动 选择 适当 的 内 存 池 。 
他 们 的 实验 建议 ， 通 向 某 个 分 配 操作 位 置 的 执行 路 径 ， 很 好 地 预言 了 在 
该 位 置 分 配 的 内 存 块 的 生命 周期 。 该 信息 包括 调用 链 和 分 配 位 置 的 地 
址 ， 可 使 用 该 信息 来 从 几 种 特定 于 应 用 程序 的 内 存 池 中 选择 。 





Vmalloc [Vo，1996] 是 一 个 更 为 通用 的 分 配器 ， 可 用 于 实现 Mem 和 
Arena 接 口 。Vmalloc 人 允许 客户 程序 将 内 存 组 织 为 区 ， 并 提供 函数 分 别管 
理 每 个 区 中 的 内 存 。Vmalloc 库 包括 了 malloc 接 口 的 一 个 实现 ， 能 够 像 
Mem 的 稽核 实现 那样 提供 类 似 内 存 检 查 ， 这 些 检查 可 以 通过 设置 环境 变 
量 来 控制 。 





基于 内 存 池 的 分 配 将 许多 显 式 释放 操作 合并 为 一 个 。 垃 圾 收集 器 
(garbage collector) 更 进一步 : 它们 避免 了 所 有 的 显 式 释放 操作 。 在 具 
备 垃圾 收集 器 的 语言 中 ， 程 序 员 几 乎 可 以 忽略 内 存 分 配 ， 内 存 分 配 
bug JLF) 不 可 能 发 生 。 这 种 特性 是 如 此 之 优越 ， 以 至 于 无 论 怎么 讲 
都 不 过 分 。 














有 了 垃圾 收集 器 ， 内 存 空间 将 根据 需要 上 自动 地 回收 (通常 是 在 内 存 
分 配 请 求 无 法 满足 时 ) 。 垃 圾 收集 器 会 找到 所 有 被 程序 变量 引用 的 内 存 
块 ， 以 及 这 些 块 中 的 字段 引用 的 所 有 内 存 块 ， 以 此 类 推 。 这 些 是 可 访问 
的 内 存 块 ， 其 他 的 内 存 块 是 不 可 访问 的 ， 因 而 可 以 重用 。 有 大 量 关 于 垃 
圾 收集 的 文献 : [Appel，1991] 是 一 份 简要 的 综述 ， 其 中 强调 了 最 新 的 算 
法 ， 而 [Knuth，1973a] 和 [Cohen， 1981] 则 更 深入 地 涵盖 了 较 旧 的 算法 。 





为 找到 可 访问 的 内 存 块 ， 大 多 数 垃圾 收集 器 都 必须 知道 哪些 变量 指 

同 内 存 块 ， 内 存 块 中 的 哪些 字段 指 同 其 他 内 存 块 。 垃 圾 收集 器 通常 用 于 
具有 足够 的 编译 时 或 运行 时 数据 提供 相关 必要 信息 的 语言 。 例 子 包括 
LISP、Icon、SmallTalk、ML 和 Modula-3。 保 守 式 垃圾 收集 器 

(conservative collector， 见 [Boehm and Weiser，1988]) 可 以 用 于 那些 不 
能 提供 足够 类 型 信息 的 语言 ， 如 C 和 C++。 它 们 假定 ， 任 何 对 齐 正确 、 
看 起 来 像 是 指针 的 位 模式 都 是 指针 ， 而 其 指 问 的 内 存 块 是 可 访问 的 。 
而 保守 式 垃圾 收集 器 会 将 某 些 不 可 访问 的 内 存 块 标记 为 可 访问 的 〈 即 被 
占用 ) ， 这 显然 过 高 估计 了 可 访问 内 存 块 集合 的 大 小 。 尽 管 有 这 个 明显 
的 障碍 ， 保 守 式 垃圾 收集 器 在 有 些 程序 中 工作 得 惊人 的 好 [Zorn,， 
1993]. 














6.4 ”习题 


6.1 Arena_alloc 只 查看 arena 描 述 的 大 内 存 块 。 如 果 这 个 大 内 存 块 
中 空闲 空间 不 足 ， 即 使 链表 中 的 其 他 大 内 存 块 有 足够 的 空间 ， 它 也 会 分 
配 一 个 新 的 大 内 存 块 。 修 改 Arena_alloc， 以 便 在 某 个 现存 的 大 内 存 块 有 
足够 空间 的 情况 下 ， 在 该 块 中 分 配 内 存 空 间 ， 并 测量 修改 珊 来 的 好 处 。 
能 找到 一 个 应 用 程序 ， 经 过 此 修改 后 ， 其 内 存 使 用 量 大 幅 降 低 吗 ? 








6.2 在 Arena_alloc 需 要 一 个 新 的 大 内 存 块 时 ， 则 从 空闲 链表 上 取得 
第 一 个 〈 如 果 有 的 话 ) 。 更 好 的 选择 是 找到 满足 该 请 求 的 最 大 的 空间 大 
内 存 块 ， 仅 当 freechunks 链 表 不 包含 适当 的 大 内 存 块 时 才 分 配 一 个 新 的 
大 内 存 块 。 在 这 个 方案 中 ， 通 过 跟踪 freechunks 链 表 中 最 大 的 大 内 存 
块 ， 可 以 避免 不 必要 的 裔 历 操 作 。 经 过 这 项 修改 ，Arena_alloc 中 的 while 
循环 可 以 蔡 换 为 一 个 f 语 句 。 实 现 该 方案 并 测量 其 好 处 。 它 是 否 使 
Arena_alloc 显 著 变 慢 ?” 它 对 内 存 的 使 用 是 否 更 有 效率 ? 


























6.3 将 THRESHOLD 设 置 为 10 意 味 着 ， 空 闲 链表 不 会 包含 多 于 大 约 
100KB 内 存 ， 因 为 Arena_alloc 分 配 的 大 内 存 块 至 少 为 1OKB。 设 计 一 种 方 
法 ， 使 得 Arena_alloc 和 Arena_free 能 够 监控 分 配 和 释放 模式 ， 并 基于 模 
式 来 动态 地 计算 THRESHOLD。 有 目标 是 使 空闲 链表 尽 可 能 小 ， 并 使 调用 
malloc 的 次 数 最 少 。 


6.4 ”解释 Arena 接 口 不 支持 下 列 函数 的 原 


void *Arena_resize(void **ptr, long nbytes, 


const char *file, int line) 


该 函数 类 似 Mem_resize， 会 将 *ptr 指 癌 内 存 块 长 度 改变 为 nbytes， 并 返回 
一 个 指针 指向 调整 大 小 后 的 内 存 块 ， 该 块 与 *ptr 指 癌 的 内 存 块 位 于 同一 
内 存 池 中 《但 不 见得 位 于 同一 大 内 存 块 上 ) 。 如 何 修改 实现 才能 文 持 该 
PRA? 该 函数 的 实现 将 文 持 何 种 已 检查 的 运行 时 错误 ? 











6.5 在 基于 栈 的 分 配器 中 ， 分 配 操作 会 将 新 的 内 存 空 间 推 入 指定 
栈 的 栈 项 ， 并 返回 指 问 该 内 存 块 第 一 个 字 市 的 指针 。 标 记 一 个 栈 ， 束 是 
返回 编码 了 栈 当前 高 度 的 一 个 值 ， 而 释放 操作 则 是 将 栈 项 的 空间 弹出 ， 
使 栈 回 复 到 此 前 的 高 度 。 为 栈 分 配器 设计 和 实现 一 个 接口 。 你 可 以 提供 
哪些 已 检查 的 运行 时 错误 来 捕获 内 存 释 放 方 面 的 错误 ?这 种 错误 的 例 
子 ， 如 在 一 个 比 当 前 栈 顶 高 的 位 置 上 进行 释放 ， 或 在 一 个 此 前 已 经 释放 
而 后 又 再 次 分 配 出 去 的 位 置 上 进行 释放 。 所 





66 ”拥有 多 个 内 存 分 配 接口 的 一 个 问题 是 ， 在 不 知道 哪个 分 配 接 
口 最 适合 于 某 个 特定 应 用 程序 时 ， 其 他 的 接口 必须 选择 茶 个 分 配 接口 。 
设计 并 实现 一 个 单一 的 接口 来 文 持 第 5 章 和 第 6 章 的 两 种 分 配器 。 例 如 ， 
该 接口 可 以 提供 一 个 类 似 Mem_alloc 的 分 配 函数 ， 但 分 配 函数 在 某 种 “分 
配 环境 ”下 运作 ， 而 “分 配 环境 ?可 以 由 其 他 函数 来 更 改 。 这 种 “环境 ?将 
指定 内 存 管 理 的 细节 ， 如 使 用 何 种 分 配器 和 内 存 池 《如 有 果 指 定 了 基于 内 
存 池 的 分 配方 案 ) 。 举 例 来 说 ， 其 他 函数 可 以 将 当前 环境 推 入 到 一 个 内 
部 栈 上 并 建立 一 个 新 环境 ， 而 后 可 以 弹出 栈 顶 的 环境 ， 以 恢复 此 前 的 环 
境 设 置 。 在 你 的 设计 中 ， 可 以 研究 这 种 及 其 他 变 体 。 








[1] 即 最 后 一 个 字 节 之 后 的 位 置 。 一 一 译 者 注 


[2] 作者 的 描述 可 能 并 不 易 懂 ; 实际 上 ， 基 于 栈 的 分 配器 相当 于 在 
运行 栈 / 调 用 栈 中 分 配 临 时 内 存 空 间 ， 有 点 接近 于 局 部 变量 ; 分 配 空间 


时 ， 只 需要 将 调用 栈 的 栈 顶 下 推 即 可 ， 一 般 不 需要 释放 ， 函 数 返回 时 会 
自动 释放 ; 微软 的 0 库 提 供 了 一 个 _alloca 函 数 ， 就 是 栈 分 配器 。 
者 注 





译 


7 ”链表 


链表 是 零 或 多 个 指针 的 序列 。 包 含 零 个 指针 的 链表 是 空 链 表 。 链 表 
中 指针 的 数目 是 其 长 度 。 几 乎 每 个 非 平凡 的 应 用 程序 都 会 以 某 种 形式 使 
用 链表 。 在 程序 中 链表 是 如 此 普遍 ， 以 至 于 有 些 语言 将 链表 作为 内 建 类 
型 ，LISP、Scheme 和 ML 是 最 著名 的 例子 。 








链表 很 容易 实现 ， 因 此 程序 员 通 常 对 手头 的 每 个 应 用 程序 都 重新 实 
现 链表 ， 男 外 ， 昌 然 大 多 数 特 定 于 应 用 程序 的 链表 接口 有 很 多 相似 性 ， 
但 链表 没有 广 为 接受 的 标准 接口 。 如 下 所 述 的 List 抽 象 数据 类 型 提供 了 
大 多 数 特定 于 应 用 程序 的 链表 接口 中 的 许多 功能 。 第 11 章 描述 的 序列 ， 
是 表示 链表 的 力 一 种 方法 。 








7.1 接口 


完整 的 List 接 口 如 下 : 


(list.h 


= 
#ifndef LIST_INCLUDED 


#define LIST_INCLUDED 


#define T List_T 


typedef struct T *T; 


struct T { 
T rest; 


void *first; 


}; 

extern T List_append (T list, T tail); 
extern T List_copy (T list); 

extern T List_list (void *x, ...); 
extern T List_pop (T list, void **x); 
extern T List_push (T list, void *x); 


extern T List_reverse(T list); 
extern int List_length (T list); 
extern void List_free (T *list); 
extern void List_map (T list, 

void apply(void **x, void *cl), void *cl); 
extern void **List_toArray(T list, void *end); 
#undef T 


#endif 


一 个 List_T 是 一 个 指向 某 个 struct List_T 实 例 的 指针 。 大 部 分 ADT 都 隐藏 
其 类 型 的 表示 细节 。 链 表 展 现 了 这 些 细节 ， 是 因为 对 于 这 种 特定 的 ADT 
来 说 ， 隐 藏 细节 带 来 的 复杂 性 超出 了 好 处 。 








List_T 有 一 种 平凡 的 表示 ， 从 接口 可 以 看 到 ， 这 种 表示 采用 的 链表 
元 素 是 包含 两 个 字段 的 结构 ， 我 们 很 难 想象 到 ， 拓 然 有 许多 其 他 种 表示 
能 够 在 隐藏 该 事实 的 情况 下 带 来 足够 多 的 好 处 。 章 末 的 习题 探讨 了 其 中 
一 些 方 案 。 





披露 List_T 的 表示 从 几 个 方面 简化 了 接口 及 其 使 用 。 例 如 ，struct 
List_T 类 型 的 变量 可 以 静态 地 定义 并 初始 化 ， 这 对 于 在 编译 时 构建 链表 
很 有 用 ， 且 避免 了 内 存 分 配 。 类 似 地 ， 其 他 结构 可 以 将 struct List_T 实 例 
舱 入 到 自身 之 中 。 值 为 NULL 的 List_T 是 空 链表 ， 这 是 一 种 很 自然 的 表 
示 ， 而 且 访 问 first 和 rest 字 段 不 需要 消 数 。 











该 接口 中 的 所 有 例 程 对 任何 链表 参数 都 可 以 接受 NULL 值 的 T， 并 
将 其 解释 为 空 链表 。 


List_list 创 建 并 返回 一 个 链表 。 调 用 该 函数 时 ， 需 要 传递 N+1 个 指针 


作为 参数 ， 前 NN 个 指针 为 非 NULL， 最 后 一 个 为 NULL 指 针 ; 该 函数 会 创 
符 一 个 包含 N 个 结 点 的 链表 ， 各 个 结 扣 的 frst 字 段 包 含 了 N 个 非 NULL 的 
指针 ， 而 第 N 个 结 点 的 rest 字 段 为 NULL。 例 如 ， 下 列 赋值 操作 


List_T pi, p2; 
pi = List_list(NULL); 


p2 = List_list("Atom", "Mem", "Arena", "List", NULL); 


N 
y- 
Aapa 


| 返回 空 链 表 和 一 个 包含 4 个 结 点 的 链表 (其 中 的 first 字 有 段 分 别 指 问 字 
"Atom", "Mem", "Arena", "List") 。List list 可 能 引发 Mem_Failed 


Tyke 


付 


List_list 假 定 其 参数 列表 的 可 变 部 分 传递 的 指针 是 void。 函 数 的 原型 
中 没有 提供 隐 式 转换 所 需 的 必要 信息 ， 因 而 对 于 用 作 第 二 个 及 后 续 参 数 
的 指针 来 说 ， 程 序 员 必 须 对 char 和 void 以 外 的 指针 提供 显 式 转换 。 例 
如 ， 为 构建 一 个 包含 四 个 子 链表 的 链表 ， 四 个 子 链表 都 只 有 一 个 链表 元 
素 ， 分 别 包 含 了 字符 串 "Atom"、"Mem"、"Arena"、"List"， 正 确 的 调用 
如 下 : 











p = List_list(List_list("Atom", NULL), 
(void *)List_list("Mem", NULL), 
(void *)List_list("Arena", NULL), 


(void *)List_list("List", NULL), NULL); 








忽略 例子 中 给 出 的 强制 转换 是 一 个 未 检查 的 运行 时 错误 。 这 种 转换 是 可 
变 长 度 参 数列 表 的 缺陷 之 一 。 


List_push(T list, void*x) 在 链表 ]ist 的 起 始 处 添加 一 个 包含 x 的 新 结 
点 ， 并 返回 新 的 链表 。List_push 可 能 引发 Mem_Failed 异 常 。List_push 古 


创建 新 链表 的 男 一 种 方法 ， 例 如 ， 


p2 = List_push(NULL, "List"); 
p2 = List_push(p2, "Arena"); 
p2 = List_push(p2, "Mem" ) ; 


p2 = List_push(p2, "Atom"); 
上 述 代码 与 前 文中 对 p2 的 赋值 操作 ， 所 创建 的 链表 是 相同 的 。 


给 定 一 个 非 空 的 链表 ，List_pop(T list，void**x) 将 第 一 个 结 点 的 first 
字段 赋值 给 *x (如 果 x 不 是 NULL 指 针 )〉 ， 移 除 第 一 个 结 点 并 释放 其 内 
存 ， 最 后 返回 结果 链表 。 给 定 一 个 空 链 表 ，List_pop 只 是 返回 原 链表 ， 
并 不 修改 *x。 


List_append(T list, T tail) 将 一 个 链表 附加 到 男 一 个 : 该 函数 将 tail 赋 
值 给 list 中 最 后 一 个 结 点 的 rest 字 段 。 如 果 1list 为 NULL， 该 函数 返回 tail。 
这 样 ， 下 面 的 代码 








p2=List_append(p2, List_list("Except", NULL)); 


BK a FT "Except KARER IAN BB TE SE he NA 
素 的 链表 ， 而 后 将 p2 设 置 为 指 癌 新 的 包含 5 个 元 素 的 链表 。 


List_reverse 首 先 逆转 其 参数 链表 中 结 点 的 顺序 ， 而 后 返回 结果 链 
表 。 例 如 ， 


p2 = List_reverse(p2); 





返回 的 链表 包含 5 个 元 素 ， 依 次 


是 "Except"、"List"、"Arena"、"Mem"、"Atom'"'。 


到 目前 为 止 描述 的 大 部 分 例 程 都 是 破坏 性 的 ”或 非 应 用 性 的 ， 
non-applicative) ， 它 们 可 能 改变 传递 进来 的 链表 ， 并 返回 结果 链表 。 
List_copy 是 一 个 应 用 性 的 Capplicative) RA: 它 复 制 其 参数 链表 ， 并 
返回 副本 。 因 而 ， 在 执行 下 述 代 码 之 后 


List_T p3 = List_reverse(List_copy(p2)); 


pati "Atom", "Mem", "Arena", "List", "Except", p2trt7s 
变 。List_copy 可 能 引发 Mem_Failed 异 和 常 。 


List_length 返 回 其 参数 链表 中 的 结 点 数目 。 


List_free 的 参数 为 一 个 指向 T 的 指针 。 如 果 *list 不 是 NULL， 
List_free 将 释放 *list 链 表 中 的 所 有 结 点 并 将 其 设置 为 NULL 指 针 。 如 果 
*]ist 为 NULL，List_free 则 没有 效果 。 将 NULL 指 针 传递 给 List_free 是 一 
个 已 检查 的 运行 时 错误 。 





List_map 对 list 链 表 中 的 每 个 结 点 调用 apply 指 同 的 函数 。 客 户 程 序 
可 以 向 List_map 传 递 一 个 特定 于 应 用 程序 的 指针 cl， 访 指针 接 下 来 传递 
给 *apply， 用 作 第 二 个 参数 。 对 链表 中 的 每 个 结 点 ， 都 会 用 指 问 结 点 
first 字 段 的 指针 和 cl 作为 参数 来 调用 *apply。 因 为 调用 *apply 时 使 用 的 是 
指 癌 first 字 段 的 指针 ， 因 此 first 字 段 可 能 会 被 apply 修 改 。apply 和 cl 合 称 
闭 包 (closure) 或 回调 (callback) : 它们 规定 了 一 个 操作 和 一 些 用 于 
该 操作 的 上 下 文 相关 数据 。 例 如 ， 给 定 下 述 函 数 ; 


void mkatom(void **x, void *cl) { 
char **str = (char **)x; 


FILE *fp = cl; 


*str = Atom_string(*str); 
fprintf(fp, "%s\n", *str); 
} 


那么 调用 List_map(p3, mkatom, stderr) 会 将 p3 链 表 中 的 字符 串 用 相等 的 原 
子 蔡 换 ， 并 输出 下 列 内 容 : 


Atom 
Mem 
Arena 
List 


Except 


到 标准 错误 输出 。 男 一 个 例子 是 


void applyFree(void **ptr, void *cl) { 
FREE(*ptr); 
} 


在 释放 链表 本 身 之 前 ， 可 以 用 该 函数 释放 各 个 结 点 的 first 字 段 所 指向 的 
内 存 空 间 。 例 如 


List_T names; 


List_map(names, applyFree, NULL); 


List_free(&names ); 


上 述 代码 将 释放 链表 names 中 的 数据 ， 然 后 释放 链表 中 的 各 个 结 点 本 
和 丘 。 如 果 apply 改 变 链表 ， 那 么 这 是 一 个 未 检查 的 运行 时 错误 。 











给 定 一 个 包含 N 个 值 的 链表 ，List_toArray(T list, void * end) 将 创建 
一 个 数组 ， 数 组 中 的 元 素 0 到 元 素 N-1 分 别 包 含 了 链表 中 N 个 结 点 的 first 
字段 值 ， 数 组 中 的 元 素 N 包 仿 end 的 值 ，end 通 常 是 一 个 NULL 指 针 。 
List_toArray 返 回 一 个 指 同 数组 第 一 个 元 素 的 指针 。 例 如 ， 下 述 代码 可 以 
按 排 序 后 的 次 序 输出 p3 中 的 各 个 元 素 : 





int 1; 
char **array = (char **)List_toArray(p3, NULL); 
qsort((void **)array, List_length(p3), sizeof (*array), 
(int (*)(const void *, const void *))compare); 
for (i = 0; array[i]; i++) 
printf("%s\n", array[i]); 


FREE(array); 


按 这 个 例子 所 上 暗示 的 ， 客 户 程序 必须 释放 List_toArray 返 回 的 数组 。 如 果 
链表 为 室 ，List_toArray 返 回 一 个 单元 素数 组 。List_toArray 可 能 引发 
Mem_Failed 异 常 。compare 及 其 与 标准 库 函 数 qsort 的 协同 使 用 ， 将 在 8.2 
节 描 述 。 


7.2 ”实现 


(list.c 


Y= 
#include <stdarg.h> 
#include <stddef.h> 
#include "assert.h" 
#include "mem.h" 


#include "list.h" 
#define T List_T 


(functions 


79) 


List_push 是 最 简单 的 链表 函数 。 它 分 配 一 个 结 点 ， 初 始 化 该 结 点 ， 
并 返回 指 辣 该 结 点 的 指针 : 


(functions 


79) = 
T List_push(T list, void *x) { 


T p; 


NEW(p); 
p->first = x; 
p->rest = list; 


return p; 


Fy BNE BERS HY K List ist ENER, AAE AAE ir 
可 变 的 参数 ， 而 且 对 参数 列表 中 每 一 个 不 是 NULEL 的 指针 参数 ， 都 必须 
加 链表 附加 一 个 新 的 结 点 。 为 此 ， 该 函数 用 一 个 双重 指针 ， 来 指 疝 表示 
应 该 分 配 的 新 结 反 的 指针 : 


(functions 


79) += 
T List_list(void *x, ...) { 
va_list ap; 


T list, *p = &list; 


va_start(ap, x); 


for ( ; x; x = va_arg(ap, void *)) { 
NEW(*p); 
(*p)->first = x; 
p = &(*p)->rest; 

} 

*p = NULL; 

va_end(ap); 

return list; 


J 


pitta Mists AEEA E RERE E Pha A R EE 2 
list。 此 后 ，p 指 向 链 表 中 最 后 一 个 结 点 的 rest 字 段 ， 因 此 对 *p 的 赋值 就 是 
癌 链 表 添 加 了 一 个 结 皮 。 图 7-1 演 示 了 使 用 List_list 建 立 一 个 三 结 反 的 链 
表 时 ， 对 p 的 初始 化 以 及 for 循 环 体 中 的 语句 的 效果 。 


每 一 次 循环 都 将 可 变 参 数列 表 中 的 下 一 个 指针 参数 赋值 给 x， 当 遇 
到 第 一 个 NULL 指 针 参 数 时 退出 循环 ， 当 然 x 的 初始 值 也 可 能 是 NULL。 
这 种 惯用 法 确保 了 List_list(NULL) 返 回 空 链 表 ， 即 NULL 指 针 。 


List_list 对 双重 指针 《〈 即 List_T* ) 的 使 用 ， 在 许多 链表 处 理 算法 中 
是 很 有 代表 性 的 。 它 使 用 一 种 简明 的 机 制 处 理 了 两 种 情况 : TR) ay Be Ae 
的 链表 添加 初始 结 点 ， 回 非 空 的 链表 添加 内 部 结 点 。List_append 示 范 了 
对 该 惯用 法 的 男 一 种 使 用 : 


(functions 


79) += 
T List_append(T list, T tail) { 


T *p = &list; 


while (*p) 

p = &(*p)->rest; 
*p = tail; 
return list; 


} 


List_appendH pm list, pR 45 Ia HERE AR a rest rA (为 
NULL 指 针 ) , List_append MiZ taill MEAZ. WU RlistH AE 
NULLE, JAAR pHs lellist, [ARE AY DAA B tail BY J Bl TER 
预期 效果 。 


List_copy 是 List 接 口中 最 后 一 个 使 用 双重 指针 惯用 法 的 函数 : 


(functions 


79) += 
T List_copy(T list) { 
T head, *p = &head; 


for ( ; list; list = list->rest) { 
NEW(*p); 
(*p)->first = list->first; 
p = &(*p)->rest; 

} 

*p = NULL; 


return head; 


双重 指针 无 法 简化 List_pop 或 List_reverse， 因 此 对 这 两 个 函数 来 
说 ， 更 显然 的 实现 方法 就 足够 了 。List_pop 删 除 一 个 非 空 链表 中 的 第 一 
个 结 点 并 返回 新 链表 ， 或 返回 空 链表 : 


(functions 


79) += 


T List_pop(T list, void **x) { 
if (list) { 
T head = list->rest; 
if (x) 
*x = list->first; 
FREE(list); 
return head; 
} else 


return list; 


如 果 x 不 为 NULL， 那 么 在 释放 第 一 个 结 点 之 前 ， 将 其 first 字 段 赋值 给 
*x。 请 注意 ，List_pop 在 释放 list 指 问 的 结 点 之 前 ， 必 须 保 存 list->rest 字 
段 。 


List_reverse 用 两 个 指针 1list 和 next 来 遍历 链表 一 次 ， 并 使 用 这 两 个 指 
针 将 链表 就 地 反 转 ，head 总 是 指向 反 转 后 链表 的 第 一 个 结 点 : 


(functions 


79) += 
T List_reverse(T list) { 


T head = NULL, next; 


for ( ; list; list = next) { 


next = list->rest; 


list->rest = head; 
head = list; 


Í 


return head; 


t 


图 7-2 说 明了 处 理 链 表 第 三 个 元 素 时 ， 刚 好 执行 完 循环 体 中 第 一 个 语句 
(对 next 的 赋值 ) 的 情形 。 


head next 


Ee 


list 





图 7-2 ”处理 链表 中 第 三 个 元 素 的 情形 


此 时 ，next 指 同 ]list 的 后 继 结 点 ， 如 果 list 指 同 链 表 中 最 后 一 个 结 点 ， 
则 next 为 NULL， head 指 向 当前 的 逆 疝 链表 ， 该 链表 从 list 的 前 趋 结 点 开 
A, 如果 list 指 向 链表 的 第 一 个 结 点 ， 则 head 为 NULL。 循环 体 中 的 第 二 
和 第 三 条 语句 ， 将 list 指 向 的 结 点 推 入 到 head 链 表 的 头 部 ， 循 环 的 递增 表 
达 式 list=next 将 list 推 进 到 当前 结 点 的 后 继 结 点 ， 此 时 ， 链 表 的 情形 如 图 
7-3] AN - 





head next 


as 


list 


图 7-3 将 list 推 进 到 当前 结 点 的 后 继 结 点 的 链表 
在 接 下 来 执行 循环 体 的 过 程 中 ，next 将 会 再 次 推进 。 


List_length 人 遍历 list 统 计 结 点 数 上 月，List_free 裔 历 list 以 释放 每 一 个 结 
H. 


de 


(functions 


79) += 
int List_length(T list) { 


int n; 


for (n = 0; list; list = list->rest) 
n++: 


了 


return n; 


void List_free(T *list) { 


T next; 


assert(list); 
for ( ; *list; *list = next) { 
next = (*list)->rest; 


FREE(*list); 


List_map 看 起 来 很 复杂 ， 但 其 实 是 平凡 的 ， 因 为 团 包 函数 完成 了 所 
有 工作 。List_map 只 需 裔 历 list， 用 指 癌 链表 中 每 一 个 结 点 的 first 字 段 的 
指针 和 客户 程序 相关 的 指针 d， 来 调用 闭 包 函数 即 可 : 


(functions 


79) += 

void List_map(T list, 
void apply(void **x, void *cl), void *cl) { 
assert(apply); 
for ( ; list; list = list->rest) 


apply(&list->first, cl); 


List_toArray 分 配 一 个 N+1 个 元 素 的 数组 ， 用 以 容纳 一 个 N 元 素 链表 
中 的 指针 ， 并 将 链表 中 的 指针 复制 到 数组 中 。 





(functions 


79) += 
void **List_toArray(T list, void *end) { 


int i, n = List_length(list); 


void **array = ALLOC((n + 1)*sizeof (*array)); 


for (i = 0; i < n; i++) { 
array[i] = list->first; 
list = list->rest; 

} 

array[i] = end; 

return array; 


} 


对 空 链表 分 配 一 个 单元 素数 组 看 起 来 是 有 点 浪费 ， 但 这 样 做 意味 着 
List_toAray 总 是 返回 一 个 指向 数组 的 非 NULL 指 针 ， 因 此 客户 程序 从 不 
需要 检查 NULL 指 针 。 





7.3 扩展 阅读 


[Knuth，1973a] 描 述 了 操作 单 链表 的 所 有 重要 算法 (如 List 接 口 提供 
的 那些 ) ， 以 及 操作 双 链 表 的 算法 (本 书 中 由 Ring 接 口 提供 ， 在 第 12 章 
描述 ) 。 


在 表 处 理 语 言 如 LISP 和 Scheme 中 ， 以 及 函数 式 语言 如 ML 
[Ullman，1994] 中 ， 一 切 东西 都 是 链表 。[Abelson and Sussman，1985] 说 
明了 如 何 使 用 链表 来 解决 几乎 任何 问题 ， 而 该 书 只 是 许多 此 类 教科 书 之 
一 ， 该 书 使 用 了 Scheme。 


74 习题 





7.1 设计 一 个 链表 ADT， 隐 藏 链表 的 表示 ， 且 不 使 用 NULL 指 针 来 
表示 空 链 表 。 首 先 设计 接口 ， 然 后 完成 实现 。 一 种 方法 是 将 List_T 作 为 
指向 表 头 的 不 透明 指针 ， 表 头 中 包含 一 个 指针 指向 链表 本 身 ， 或 两 个 指 
针 ， 分 别 指向 链表 的 第 一 个 和 最 后 一 个 结 点 。 表 头 还 可 以 保存 链表 的 长 
度 。 








7.2 ” 重 写 List_list、List_append 和 List_copy， 不 使 用 双重 指针 。 
7.3 ”使 用 双重 指针 重 写 List_reverse。 


7.4 ”List_append 在 许多 应 用 程序 中 是 最 常用 的 链表 操作 之 一 ， 它 必 
须 授 历 到 链表 的 末尾 ， 对 一 个 NN 元素 链表 需要 花费 O(N) 时 则 。 循 环 链表 
是 单 链 表 的 另 一 种 表示 。Mem 接 口 的 稽核 实现 中 的 空 有 链表， 就 是 循环 
链表 的 一 个 例子 。 在 循环 链表 中 ， 最 后 一 个 结 点 的 rest 字 上 段 指 癌 第 一 个 
结 点 ， 链 表 本 里 由 指 问 最 后 一 个 结 点 的 指针 表示 。 因 而 ， 第 一 个 和 最 后 
一 个 结 点 都 可 以 在 常数 时 间 内 访问 ， 同 循环 链表 附加 另 一 个 链表 的 操 
作 ， 也 可 以 在 常数 时 间 内 完成 。 为 使 用 循环 链表 的 链表 ADT 设 计 一 个 接 
口 。 对 于 隐藏 链表 表示 和 披露 链表 表示 的 两 种 接口 ， 都 要 进行 试验 。 

















第 8 z 表 


il 


关联 表 (associative table) 是 一 组 键 一 值 对 的 集合 。 它 很 像 是 数 
组 ， 只 是 索引 可 以 是 任何 类 型 值 。 许 多 应 用 程序 都 使 用 表 。 人 例如， 编译 
器 要 维护 符号 表 ， 访 表 将 名 称 上 映射 到 名 称 的 属性 集合 。 一 些 窗口 系统 会 
维护 表 ， 用 于 将 窗口 标题 映射 到 某 种 窗口 相关 的 数据 结构 。 文 档 预 加 工 
系统 使 用 表 来 表示 索引 : 例如 ， 索 引 可 能 是 一 个 表 ， 键 是 单字 符 的 字符 
PE (每 个 字符 表示 索引 中 的 一 个 部 分 ) ， 值 是 另 一 个 表 ， 该 表 的 键 是 表 
示 索 引 项 的 字符 串 ， 值 是 页 码 列 表 。 




















表 有 许多 用 途 ， 光 是 举例 就 需要 一 章 的 篇 幅 。Table 接 口 的 设计 ， 
使 得 它 可 以 满足 这 些 用 途中 的 相当 一 部 分 。 它 维护 键 一 值 对 ， 但 它 从 不 
碍 看 键 本 身 ， 只 有 客户 程序 才 通过 传递 给 Table 中 例 程 的 函数 ， 来 查看 
键 。8.2 市 摘 述 了 Table 接 口 的 一 个 典型 的 客户 程序 ， 该 程序 输出 其 输入 
中 单词 出 现 的 次 数 。 这 个 程序 是 wf， 它 还 使 用 了 Atom 和 Mem 接 口 。 





8.1 接口 


Table 接 口 用 一 个 不 透明 指针 类 型 来 表示 关联 表 : 


(table.h 


= 
#ifndef TABLE_INCLUDED 
#define TABLE_INCLUDED 
#define T Table_T 


typedef struct T *T; 


(exported functions 


84) 


#undef T 


#endif 


导出 的 函数 负责 分 配 和 释放 Table_T 实 例 、 向 表 添 加 /删除 键 一 值 对 ， 以 
及 访问 表 中 的 键 一 值 对 。 向 该 接口 中 任何 函数 传递 的 Table_T 实 例 为 
NULL， 或 键 为 NULL， 都 是 已 检查 的 运行 时 错误 。 








Table_ TI 通 过 下 列 函 数 分 配 和 释放 : 


(exported functions 


84) = 

extern T Table_new (int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *key)); 


extern void Table free(T *table); 


Table_new 的 第 一 个 参数 hint， 用 于 估计 新 的 表 中 预期 会 容纳 的 表 项 数 
目 。 无 论 hint 值 如 何 ， 所 有 的 表 都 可 以 容纳 任意 数目 的 表 项 ， 但 准确 的 
hint 值 可 能 会 提高 性 能 。 传 递 负 的 hint 值 ， 是 一 个 已 检查 的 运行 时 错误 。 
函数 cmp 和 hash 负 责 操 作 特 定 于 客户 程序 的 键 。 给 定 两 个 键 x 和 y， 
cmp(X,y) 针 对 x 小 于 y、x 等 于 y 或 x 大 于 y 的 情形 ， 必 须 分 别 返 回 小 于 零 、 
等 于 零 或 大 于 零 的 整数 。 标 准 库 函 数 strcmp 是 一 个 适合 于 字符 串 键 的 比 
较 函 数 。hash 必 须 针 对 key 返 回 一 个 哈 希 码 ， 如 果 cmp(x 愉 返回 零 ， 
hash(x) 必 须 等 于 hash(y)。 每 个 表 都 可 以 有 目 身 的 hash 和 cmp 函 数 。 














原子 通常 用 作 刍 ， i E 那么 假定 新 表 
中 的 键 是 原子 ，Table 的 实现 提供 了 一 个 适当 的 哈 希 函数 。 类 似 地 ， 如 
果 cmp 是 NULL 了 函数 指针 ， eo 如 果 x=y， 那 么 键 x 
和 y 相 等 。 





Table_new FJ fé5| Mem _ Failed = 





Table_new 参 数 包括 一 个 表 大 小 的 提示 值 、 一 个 哈 希 函数 和 一 个 比 
较 函 数 ， 提 供 的 信息 超出 了 大 多 数 实现 的 需要 。 例 如 ，8.3 节 中 描述 的 
哈 硕 表 实 现 需要 一 个 只 测试 相等 性 的 比较 函数 ， 而 使 用 树 的 实现 则 不 需 
要 表 大 小 的 提示 信息 或 哈 希 函数 。 这 种 复杂 性 ， 是 容许 多 种 实现 的 设计 
所 必需 的 代价 ， 另 外 ， 为 什么 设计 好 的 接口 很 困难 ， 这 种 特性 就 是 原因 
A 








Table_free 释 放 *table， 并 将 其 设置 为 NULL 指 针 。 如 果 table 或 *table 
是 NULL， 则 是 已 检查 的 运行 时 错误 。Table_free 并 不 释放 键 或 值 ， 相 关 
内 容 可 参考 Table_ map。 





下 列 函 数 


‘exported functions 


84) += 

extern int Table_length(T table); 

extern void *Table_put (T table, const void *key, 
void *value); 

extern void *Table_get (T table, const void *key); 


extern void *Table_remove(T table, const void *key); 





其 功能 分 别 是 : 返回 表 中 键 的 数目 、 添 加 一 个 新 的 键 一 值 对 或 改变 一 个 
现存 键 一 值 对 中 的 值 ， 取 得 与 菜 个 键 关 联 的 值 ， 删 除 一 个 键 一 值 对 。 





Table_length 返 回 table 中 键 一 值 对 的 数目 。 


Table_put 将 由 key 和 value 给 定 的 键 一 值 对 添加 到 table。 如 果 table 已 
经 包 售 key 键 ， 那 么 用 value 宪 盖 key 此 前 对 应 的 值 ，Table_put 将 返回 key 
此 前 对 应 的 值 。 否 则 ， 将 key 和 value 添 加 到 table 中 ，table 增 长 一 个 表 
项 ，Table_put 将 返回 NULL 指 针 。Table_put 可 能 引发 Mem_Failed 异 常 。 


Table_get 搜 索 table 查 找 key 键 ， 如 果 找 到 则 返回 key 键 相关 联 的 值 。 
如 果 table 并 不 包含 key 键 ， 则 Table_get 返 回 NULL 指 针 。 请 注意 ， 如 果 
table 包 含 NULL 指 针 值 ， 那 么 返回 NULL 指 针 是 有 此 义 的 。 


Table_remove 将 搜索 table 碍 找 key 键 ， 如 果 找 到 则 从 table 删 除 对 应 的 
键 一 值 对 ， 表 将 会 缩减 一 个 表 项 ， 并 返回 被 删除 的 值 。 如 果 table 并 不 包 
合 key 键 ，Table remove 对 table 没 有 作用 ， 将 返回 NULL 指 针 。 


下 列 函 数 中 


(exported functions 


84) += 

extern void Table_map (T table, 
void apply(const void *key, void **value, void *cl), 
void *cl); 


extern void **Table_toArray(T table, void *end); 


Table toArray 访 问 表 中 的 键 一 值 对 ， 并 将 其 收集 到 一 个 数组 中 。 
Table_map 以 未 指定 的 顺序 对 table 中 的 每 个 键 一 值 对 调用 apply 指 问 的 函 
数 。apply 和 cl 指定 了 一 个 闭 包 : 客户 程序 可 以 向 Table_map 传 递 一 个 特 





定 于 应 用 程序 的 指针 cl， 在 每 次 调用 apply 时 ， 该 指针 又 被 顺 次 传递 给 

apply。 对 table 中 的 每 个 对 ， 调 用 apply 时 会 传递 其 键 、 指 癌 其 值 的 指针 
和 cl。 因 为 调用 *apply 时 使 用 的 是 指向 值 的 指针 ， 因 此 值 可 能 会 被 apply 
修改 。Table_map 还 可 以 用 来 在 释放 表 之 前 释放 键 或 值 。 例 如 ， 假 定 键 
是 原子 


static void vfree(const void *key, void **value, 
void *cl) { 
FREE(*value); 

J 


ER R BL FEET H E AE 


Table_map(table, vfree, NULL); 
Table_free(&table); 


KF Mable H MA KE #lltable AS 


如 果 apply 调 用 Table_put 或 Table_remove 改 变 table 的 内 容 ， 则 是 已 检 
得 的 运行 时 错误 。 


给 定 一 个 包含 N 个 键 一 值 对 的 表 ，Table_toArray 会 构建 一 个 有 2N+1 
个 元 素 的 数组 ， 并 返回 指 癌 第 一 个 元 素 的 指针 。 在 数组 中 键 和 值 交 蕉 出 
现 ， 键 出 现在 偶数 编写 的 元 素 处 ， 对 应 的 值 出 现在 下 一 个 奇数 编写 的 元 
素 处 。 最 后 一 个 偶数 编号 的 元 素 位 于 索引 2N 处 ， 被 赋值 为 end，end 通 第 
是 NULL 指 针 。 数 组 中 键 一 值 对 的 顺序 是 未 指定 的 。8.2 节 中 描述 的 程序 
说 明了 Table_toArray 的 用 法 。 











Table_toArray 可 能 引发 Mem_Failed 异 常 ， 客 户 程 序 必须 释放 


Table_toArray 返 回 的 数组 。 


8.2 ”例子 : WAN 


wf 会 列 出 一 组 文件 或 标准 输入 《如 果 没 有 指定 文件 ) 中 每 个 单词 出 
现 的 次 数 。 例 如 : 


% wf table.c mem.c 


table.c: 
3 apply 
7 array 


13 assert 
9 binding 
18 book 

2 break 


10 buckets 


4 y 
mem.c: 
1 allocation 


7 assert 


12 book 
1 stdlib 
9 void 





如 上 述 得 出 所 示 ， 每 个 文件 中 的 单词 按 字 母 顺序 列 出 ， 单 词 之 前 是 其 在 
该 文件 中 出 现 的 次 数 。 对 于 wf 来 次 ， 单 词 束 是 一 个 字母 后 接 零 个 或 更 多 





字母 或 下 划 线 ， 不 考虑 大 小 写 。 


更 一 般 地 说 ， 一 个 单词 由 first 集 合 中 的 一 个 字符 开始 ， 后 接 rest 集 合 
中 的 零 或 多 个 字符 。 这 种 形式 的 单词 可 以 由 getword 识 别 ， 它 是 1.1 节 中 
描述 的 double 中 的 getword 的 一 般 化 形式 。 它 在 本 书 中 使 用 得 很 广泛 ， 以 
至 于 需要 打包 到 一 个 独立 的 接口 中 : 








‘getword.h 


)= 


#include <stdio.h> 


extern int getword(FILE *fp, char *buf, int size, 


int first(int c), int rest(int c)); 


getword 会 从 打开 的 文件 全 中 读 取 下 一 个 单词 ， 将 其 作为 0 结尾 字符 串 存 
储 到 buf ”[0..size-1] 中 ， 并 返回 1。 当 它 到 达 文 件 末 尾 而 无 法 读 取 到 单词 
时 ， 将 返回 0。 函 数 first 和 rest 测 试 示 个 字符 是 侣 属于 first 和 rest 集 合 。 一 
个 单词 是 一 个 连续 的 字符 序列 ， 其 起 始 字 符 用 first 函 数 测试 时 会 返回 非 
零 值 ， 后 接 的 字符 用 rest 测 试 时 将 返回 非 堆 值 。 如 果 一 个 单词 包含 的 字 

符 数 大 于 size-2， 多 出 的 字符 将 丢弃 。size 必 须 大 于 1， 印 、buf、first 和 

rest 都 不 能 为 NULL。 








(getword.c 


= 
#include <ctype.h> 
#include <string.h> 
#include <stdio.h> 
#include "assert.h" 


#include "getword.h" 


int getword(FILE *fp, char *buf, int size, 
int first(int c), int rest(int c)) { 


int i = 0, C; 


assert(fp && buf && size > 1 && first && rest); 
c = getc(fp); 
for ( ; c != EOF; c = getc(fp)) 

if (first(c)) { 


(store 


c in buf if it fits 


88) 
c = getc(fp); 


break; 


} 
for ( ; c != EOF && rest(c); c = getc(fp)) 


(store 


c in buf if it fits 


88) 
if (1 < size) 
buf[i] = '\0'; 
else 
buf[size-1] = '\O'; 
if (c != EOF) 
ungetc(c, fp); 
return i > 0; 
} 
(store 


c in buf if it fits 


88) = 


if (i < size - 1) 


buf [i++] = c; 


getword 的 这 个 版 本 比 double 中 的 版 本 要 复杂 一 点 ， 因 为 当 一 个 字符 属于 
first 集 合 但 不 属于 rest 集 合 时 ， 这 个 版 本 必须 能 够 工作 。 当 first 返 回 非 零 
值 时 ， 该 字符 将 保持 在 buf 中 ， 仅 其 后 续 字 符 将 传递 给 rest。 


Wf 的 main 函 数 处 理 其 参数 ， 参 数 给 出 了 输入 文件 的 名 称 。main 打 开 
各 个 文件 ， 并 用 FILE 指 针 和 文件 名 来 调用 wf: 


‘wf functions 


88) = 
int main(int argc, char *argv[]) { 


int 1; 


for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv[i], "r"); 
if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 
argv[O], argv[i], strerror(errno)); 


return EXIT_FAILURE; 


} else { 
wf(argv[i], fp); 
fclose(fp); 


} 
if (argc == 1) wf(NULL, stdin); 
return EXIT_SUCCESS; 


(wf includes 


88) = 
#include <stdio.h> 
#include <stdlib.h> 


#include <errno.h> 


如 果 没 有 参数 ，main 用 NULL 字 符 串 (用 作文 件 名 〉 和 表示 标准 输入 的 
FILE 指 针 来 调用 wf。NULL 字 符 串 文件 名 告知 wf 无 需 输出 文件 名 。 


wf 使 用 表 来 存储 单词 及 其 计数 。 各 个 单词 都 转换 为 小 写 ， 再 转换 为 
原子 ， 用 作 表 的 键 。 使 用 原子 ， 使 得 wf 可 以 利用 表 提 供 的 默认 哈 希 函数 
和 比较 函数 。 表 中 存储 的 值 是 指针 ， 但 wf 却 需 要 将 一 个 整数 计数 关联 到 
各 个 键 。 因 而 它 为 计数 需 分 配 了 内 存 空间 ， 并 将 指 回访 空间 的 指针 存储 
TER 





(wf functions 


88) += 


void wf(char *name, FILE *fp) { 


Table _T table = Table_new(0, NULL, 


char buf[128]; 


while (getword(fp, buf, sizeof buf, first, 


const char *word; 


int i, *count; 


for (i = 0; buf[i] != '\O'; i++) 
buf[i] = tolower(buf[i]); 


word = Atom_string(buf); 


count = Table_get(table, word); 


if (count) 
(*count )++; 

else { 
NEW(count); 


*count = 1; 


Table_put(table, word, count); 


} 
if (name) 
printf("%s:\n", name); 


{ print the words 


rest)) { 


90) } 


(deallocate the entries 


table 91) 
} 


(wf includes 


88) += 
#include 
#include 
#include 
#include 


#include 


<ctype.h> 
"atom. h" 
"table.h" 
"mem. h" 


"getword.h" 


(wf prototypes 


89) = 


void wf(char *, FILE *); 


and 


count 是 一 个 指向 整数 的 指针 。 如 果 Table_get 返 回 NULL， 那 么 当前 单词 
不 在 table 中 ， 如 此 wf 为 该 计数 器 分 配 空 间 ， 并 将 其 初始 化 为 1， 来 表示 
该 单词 的 第 一 次 出 现 ， 并 将 其 添加 到 表 中 。 当 Table_get 返 回 非 NULL 指 
针 时 ， 表 达 式 (*count)++ 会 将 该 指针 指 同 的 整数 加 1。 该 表达 式 与 
*Ccount++ 有 很 大 不 同 ， 后 者 将 count 加 1， 而 不 是 将 其 指向 的 整数 加 1。 











字符 是 人 否 是 first 和 rest 集 合 的 成 员 ， 是 通过 同名 函数 来 测试 的 ， 这 些 
胃 数 的 实现 使 用 了 标准 头 文件 ctype.h 中 定义 的 谓词 : 


(wf functions 


88) += 
int first(int c) { 


return isalpha(c); 


int rest(int c) { 


return isalpha(c) || c == '_'; 


(wf prototypes 


89) += 


int first(int c); 


int rest (int c); 


在 wf 读 取 了 所 有 单词 后 ， 它 必须 排序 并 输出 它们 。gsort 是 标准 C 库 
的 排序 函数 ， 可 以 对 数组 排序 ， 因 此 ， 如 果 告 知 qsort 数 组 中 的 键 一 值 对 
应 该 当做 单个 元 素 处 理 ， 那 么 wf 就 可 以 对 Table_toArray 返 回 的 数组 进行 
排序 。 接 下 来 ， 程 序 遍 历数 组 即 可 输出 各 个 单词 及 其 计数 : 


(print the words 


90) = 
int 1; 
void **array = Table_toArray(table, NULL); 
qsort(array, Table_length(table), 2*sizeof (*array), 
compare); 
for (i = 0; array[i]; i += 2) 
printf("%d\t%s\n", *(int *)array[it1], 
(char *)array[i]); 


FREE(array); 


qsort 有 4 个 参数 : 数组 、 元 素 的 数目 、 各 个 元 素 的 大 小 〈 字 市 数 ) 
和 比较 两 个 元 系 时 调用 的 函数 。 为 将 键 一 值 对 当做 单个 元 素 处 理 ，wf 告 
知 qsort 数 组 中 有 NN 个 元 系 ， 每 个 元 素 占 两 个 指针 的 空间 。 





qsort 用 指向 元 系 的 指针 作为 参数 调用 比较 函数 。 每 个 元 素 本 里 是 两 
个 指针 ， 一 个 指向 单词 ， 为 一 个 指 癌 计数 ， 因 此 调用 比较 函数 时 ， 其 参 


数 是 两 个 指 同 字符 的 双重 指针 。 例 如 ， 当 比较 mem.c 文 件 中 的 assert 和 
book 时 ， 参 数 x 和 y 如 图 8-1 所 示 。 


比较 函数 可 以 调用 strcmp 来 比较 单词 : 


(wf functions 


88) += 
int compare(const void *x, const void *y) { 


return strcmp(*(char **)x, *(char **)y); 


(wf includes 


88) += 


#include <string.h> 


(wf prototypes 


89) += 


int compare(const void *x, const void *y); 
T y 了 


main 会 对 每 个 文件 名 参数 调用 wf 函数 ， 因 此 为 节省 空间 ，wf 应 该 在 
返回 之 前 释放 表 和 计数 器 。 对 Table_map 的 调用 释放 了 各 计数 器 ， 而 
Table_free 释 放 了 表 本 身 。 


(deallocate the entries and 


table 91) = 
Table_map(table, vfree, NULL); 


Table_free(&table) ; 


(wf functions 


88) += 


void vfree(const void *key, void **count, void *cl) { 


FREE(*count); 


(wf prototypes 


89) += 


void vfree(const void *, void **, void *); 





键 没 有 释放 ， 因 为 它们 是 原子 ， 不 能 释放 。 为 外 ， 其 中 一 些 可 能 出 现在 
后 续 的 文件 中 。 


收集 wf.c 的 各 个 片段 ， 束 形成 了 wf 程 序 : 


(wf.c 


= 


(wf includes 


88) 


(wf prototypes 


89) 


(wf functions 


88) 


(table.c 


= 
#include 
#include 
#include 
#include 


#include 


8.3 ”实现 


<limits.h> 
<stddef.h> 
"mem. h" 

"assert.h" 


"table.h" 


#define T Table_T 


(types 


92) 


(static functions 


93) 


(functions 


92) 








在 可 用 于 表示 关联 表 的 各 种 显而易见 的 数据 结构 中 ， 哈 希 表 是 其 中 
之 一 〈 树 是 另 一 种 ， 参 见习 题 8.2) 。 因 而 每 个 Table_T 是 一 个 结构 指 
针 ， 该 结构 包含 了 binding 结 构 的 一 个 哈 希 表 ， 键 一 值 对 则 包含 在 binding 
结构 中 : 


‘types 


92) = 
struct T { 
(fields 


92) 
struct binding { 
struct binding *link; 
const void *key; 
void *value; 


} **buckets; 


}; 





buckets 指 同一 个 数组 ， 包 含 适当 数目 的 元 素 。cmp 和 hash 函 数 是 关联 到 
特定 表 的 ， 因 此 它们 连同 buckets 中 元 素 的 数目 ， 一 同 保存 在 Table_T 结 
构 中 : 


(fields 


92) = 
int size; 
int (*cmp)(const void *x, const void *y); 


unsigned (*hash)(const void *key); 


Table_new 使 用 其 hint 参 数 来 选择 一 个 素数 作为 buckets 的 大 小 ， 它 还 会 保 
存 传递 进来 的 cnp 和 hash 函 数 指针 《或 指 癌 静态 函数 的 指针 ， 用 于 比较 
和 散 列 原子 ) : 


(functions 


92) = 

T Table_new(int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *key)) { 


T table; 


int 1; 
static int primes[] = { 509, 509, 1021, 2053, 4093, 
8191, 16381, 32771, 65521, INT_MAX }; 


assert(hint >= 0); 

for (i = 1; primes[i] < hint; i++) 

table = ALLOC(sizeof (*table) + 
primes[i-1]*sizeof (table->buckets[0])); 

table->size = primes[i-1]; 

table->cmp = cmp ? cmp : cmpatom; 

table->hash = hash ? hash : hashatom; 

table->buckets = (struct binding **)(table + 1); 

for (i = 0; i < table->size; i++) 
table->buckets[i] = NULL; 

table->length = 0; 

table->timestamp = 


return table; 


for 循 环 将 i 设 置 为 primes 中 大 于 等 于 hint 的 第 一 个 元 和 素 的 索引 值 ， 
primes[i-1] 给 出 了 buckets 中 元 素 的 数目 。 请 注意 ， 该 循环 从 索引 1 开始 。 
Mem 接 口 的 ALLOC 宏 负责 分 配 Table_T 结 构 和 buckets 占 用 的 空间 。Table 
接口 的 实现 使 用 系数 作为 其 哈 希 表 的 大 小 ， 因 为 它 无 法 控制 键 的 哈 希 人 码 
如 何 计算 。primes 中 的 值 是 最 接近 2 的 素数 Cn=9...16) ， 由 此 可 以 确 
定 哈 希 表 在 很 大 范围 内 的 大 小 。Atom 使 用 了 稍 简 单 的 算法 ， 因 为 它 自 
号 会 计算 哈 希 但 。 
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(static functions 


93) = 
static int cmpatom(const void *x, const void *y) { 


return x != y; 


static unsigned hashatom(const void *key) { 
return (unsigned long)key>>2; 


} 


代 蔡 。 因 为 原子 x=y 即 可 推出 x 和 y 相 等 ， 所 以 cmpatom 在 x=y 时 返回 0， 
否则 返回 1。 这 个 特定 的 Table 实 现 只 需要 测试 键 是 否 相 等 ， 因 此 
cmpatom 并 不 需要 测定 x 和 y 的 相对 顺序 。 原 子 是 一 个 地 址 ， 这 个 地 址 本 
号 就 可 以 用 作 哈 希 伍 ， 右 移 两 位 是 因为 可 能 每 个 原子 都 起 始 于 字 边 界 
(word boundary) ， 因 此 最 右 侧 两 位 可 能 是 0。 











buckets 中 的 每 个 元 素 都 是 一 个 链表 的 表 头 ， 该 链表 由 binding 结 构 构 
成 ， 每 个 binding 结 构 都 包含 一 个 键 、 与 之 相关 联 的 值 以 及 指向 链表 中 下 
一 个 binding 结 构 的 指针 。 图 8-2 给 出 了 一 个 例子 。 同 一 链表 中 ， 所 有 的 
键 都 具有 相同 的 哈 希 码 。 











图 8-2 表 的 布局 


Table_get 碍 找 与 键 对 应 的 值 ， 它 首先 散 列 键 得 到 其 哈 希 码 ， 而 后 将 
哈 希 个 对 buckets 中 元 系 的 数目 取 柑 ， 然 后 搜索 对 应 的 链表 查找 与 key 相 
同 的 键 。 它 调用 表 的 hash 和 cmp 函 数 。 


(functions 


92) += 

void *Table_get(T table, const void *key) { 
int 1; 
struct binding *p; 
assert(table); 


assert(key); 


(search 


table for 


key 94) 


return p ? p->value : NULL; 


(search 


table for 


key 94) = 

i = (*table->hash) (key)%table->size; 

for (p = table->buckets[i]; p; p = p->link) 
if ((*table->cmp)(key, p->key) == 0) 


break; 


这 个 for 循 环 在 找到 键 时 结束 ， 此 时 p 指 向 我 们 关注 的 binding 结 构 实 例 。 


否则 ，p 最 终 为 NULL。 


Table_put 的 流程 很 相似 ， 它 在 表 中 会 找 一 个 键 ， 如 果 找 到 ， 则 改变 
相关 联 的 值 。 如 果 Table_put 找 不 到 键 ， 那 么 它 会 分 配 并 初始 化 一 个 新 的 
binding 结 构 实 例 ， 找 到 键 在 buckets 中 对 应 的 链表 ， 将 该 实例 添加 到 链表 
的 头 部 。 事 实 上 ， 可 以 将 新 的 binding 实 例 添加 到 链表 中 任何 地 方 ， 但 添 
加 a 到 表 头 是 最 容易 也 最 蜗 效 的 方案 。 











(functions 


) += 
void *Table_put(T table, const void *key, void *value) { 
int 1; 
struct binding *p; 


void *prev; 


assert(table); 


assert(key); 


(search 


table for 


key 94) 
if (p == NULL) { 
NEW(p); 
p->key = key; 
p->link = table->buckets[i]; 
table->buckets[i] = p; 
table->length++; 
prev = NULL; 
} else 
prev = p->value; 
p->value = value; 
table->timestamp++; 


return prev; 


Table_put 会 将 表 的 两 个 计数 器 加 1: 


(fields 


92) += 
int length; 


unsigned timestamp; 


length 是 表 中 binding 实 例 的 数目 ，Table_length 函 数 即 返回 该 值 : 


(functions 


92) += 
int Table_length(T table) { 
assert(table); 


return table->length; 


Table_put 或 Table_remove 每 次 修改 表 时 ， 表 的 timestamp 也 会 加 1。 
timestamp 用 来 实现 Table_map 必 须 强 制 实施 的 一 项 已 检查 的 运行 时 错 
im: 在 Table_map 访 问 表 中 各 个 binding 实 例 时 ， 表 不 能 改变 。Table_map 
在 进入 时 保存 了 timestamp 的 值 。 在 每 次 调用 apply 之 后 ， 它 通过 上 嘲 言 来 
检查 表 的 timestamp 是 否 仍然 等 于 该 保存 值 。 





(functions 


92) += 
void Table_map(T table, 
void apply(const void *key, void **value, void *cl), 
void *cl) { 
int 1; 
unsigned stamp; 


struct binding *p; 


assert(table); 
assert(apply); 
stamp = table->timestamp; 
for (i = 0; i < table->size; i++) 
for (p = table->buckets[1i]; p; p = p->link) { 
apply(p->key, &p->value, cl); 


assert(table->timestamp == stamp); 


Table_remove 也 搜索 一 个 键 ， 但 它 使 用 了 指 同 binding 实 例 的 双重 指 
针 ， 这 样 在 找到 对 应 键 的 binding 实 例 时 ， 可 以 删除 该 binding: 


(functions 


92) += 
void *Table_remove(T table, const void *key) { 
int 1; 


struct binding **pp; 


assert(table); 
assert(key); 
table->timestamp++; 


i = (*table->hash) (key)%table->size; 


for (pp = &table->buckets[i]; *pp; pp = &(*pp)->link) 
if ((*table->cmp)(key, (*pp)->key) == 0) { 
struct binding *p = “pp; 
void *value = p->value; 
*pp = p->link; 
FREE(p); 
table->lLength--; 
return value; 


} 
return NULL; 


上 述 for 循 环 与 (search table for key 94) 中 的 for 循 环 在 功能 上 是 等 效 
的 ， 只 是 pp 指向 对 应 于 各 个 键 的 binding 实 例 的 指针 。pp 最 初 指向 table- 
>buckets[i]， 而 后 吉 历 整个 链表 ， 当 检查 第 k+1 个 binding 实 例 时 ，pp 指 问 
第 k 个 binding 实 例 的 link 字 段 ， 如 图 8-3 所 示 。 





图 8-3 ”检查 第 kt+1 个 binding 实 例 的 情形 


如 果 *pp 包 含 key， 那 么 通过 将 *pp 设 置 为 (*pp)->link， 即 可 从 链表 靳 
开 该 binding 的 链接 ，p 包 含 *pp 的 值 。 如 果 Table_remove 找 到 键 ， 它 也 会 
将 表 的 长 度 减 1。 


Table_toArray 类 似 于 List_toArray。 它 分 配 一 个 数组 来 容纳 各 个 键 一 
值 对 《以 及 一 个 结束 指针 ) ， 并 访问 table 中 的 各 个 binding 实 例 以 填充 数 
组 : 


(functions 


92) += 
void **Table_toArray(T table, void *end) { 
int i, j = 0; 
void **array; 
struct binding *p; 
assert(table); 
array = ALLOC((2*table->length + 1)*sizeof (*array)); 
for (i = 0; i < table->size; i++) 
for (p = table->buckets[i]; p; p = p->link) { 
array[j++] = (void *)p->key; 
array[j++] = p->value; 
} 
array[j] = end; 


return array; 


p->key 必 须 从 const void* 转 换 为 void*， 因 为 数组 并 未 声明 为 常量 。 数 组 
中 键 一 值 对 的 顺序 是 任意 的 。 


Table_free 必 须 释 放 各 个 binding 结 构 实例 和 Table IT 结 构 本 号 。 仅 当 


表 非 空 时 ， 才 需要 前 一 个 步骤 : 


(functions 


92) += 
void Table_free(T *table) { 
assert(table && *table); 
if ((*table)->length > 0) { 
int 1; 
struct binding *p, *q; 
for (i = 0; i < (*table)->size; i++) 
for (p = (*table)->buckets[i]; p; p =q) { 
q = p->link; 
FREE(p); 


} 
FREE(*table); 


8.4 扩展 陪读 


表 是 如 此 之 有 用 ， 以 至 于 许多 编程 语言 将 其 作为 内 建 数据 类 型 。 
AWK[Aho, Kernighan and Weinberger，1988] 是 一 个 新 近 的 例子 ， 但 表 更 
早 就 出 现在 SNOBOL4[Griswold，1972] 中 ， 而 后 也 出 现在 SNOBOL4 的 
后 继 者 Icon[Griswold and Griswold，1990] 中 。SNOBOL4 和 Icon 中 的 表 可 
以 用 任何 类 型 的 值 索 引 ， 也 可 以 容纳 任何 类 型 的 值 ， 但 AWK 中 的 表 

《 称 作 数组 ) 只 能 用 字符 串 和 数字 索引 ， 也 只 能 容纳 字符 串 和 数字 。 
Table 接 口 的 实现 ， 使 用 了 Icon[Griswold and Griswold, 1986] 中 用 于 实 
现 表 的 一 些 技术 。 


PostScript[Adobe Systems，1990] 这 种 页 面 描述 语言 (page- 
description language) 也 有 表 ， 称 之 为 字典 〈dictionary) 。PostScript 表 
只 能 通过 “名 字 ? 来 索引 ， 这 实际 上 是 PostScript 的 原子 版 本 ， 但 PostScript 
表 可 以 容纳 任何 类 型 的 值 (包括 字典 )。 


表 也 出 现在 面向 对 象 语言 中 ， 或 者 是 内 建 类 型 的 形式 ， 或 者 以 库 的 
形式 提供 。SmallTalk 和 Objective-C 的 基础 库 都 包括 字典 ， 与 Table 接 口 
所 定义 的 表 非 常 类 似 。 这 些 类 型 的 对 象 通常 称 作 容器 对象， 因为 它们 
可 以 容纳 很 多 其 他 对 象 。 





Table 的 实现 使 用 了 固定 大 小 的 哈 希 表 。 只 要 负载 系数 (load 
factor， 即 表 项 的 数目 除 以 哈 希 桶 的 数目 ) 较 小 ， 只 需 碍 看 几 项 即 可 找 
到 键 。 但 在 负载 系数 过 高 时 ， 性 能 会 受 损 。 一 旦 负载 系数 超过 东 个 国 值 
CGE ES) ， 就 扩展 哈 硕 表 ， 可 以 将 负载 系数 维持 在 合理 的 范围 内 。 
习题 8.5 探 讨 了 动态 哈 布 表 ”的 一 种 有 效 但 幼稚 的 实现 ， 该 方法 会 扩展 哈 


希 表 并 重新 散 列 所 有 现存 的 表 项 。[Larson，1988] 非 常 详细 地 描述 了 一 
种 更 复杂 的 方法 ， 其 中 哈 希 表 是 逐渐 扩展 (或 收缩 的， 每 次 处 理 一 个 
哈 希 链 。Larson 的 方法 无 需 hint， 而 且 可 以 节省 内 存 ， 因 为 它 使 得 所 有 
的 表 最 初 都 只 需要 少量 的 哈 希 桶 。 


8.5 Jul 


8.1 关联 表 ADT 有 许多 可 行 的 方案 。 例 如 ， 在 Table 的 早期 版 本 
中 ，Table_get 返 回 指向 值 的 指针 而 不 是 值 本 身 ， 因 此 客户 程序 可 以 改变 
表 中 存储 的 值 。 在 一 种 设计 中 ，Table_put 总 是 向 表 添 加 一 个 新 的 binding 
实例 《即使 键 已 经 存在 ) ， 实 际 上 用 同一 个 键 “ 隐 藏 ?此 前 存在 的 binding 
实例 ， 而 Table_remove 只 删除 最 近 添 加 的 binding 实 例 。 但 Table_map 会 
访问 table 中 所 有 的 binding 实 例 。 讨 论 这 些 及 其 他 方案 的 优 缺 点 。 设 计 并 
实现 一 个 不 同 的 表 ADT。 














8.2 Table 接 口 的 设计 使 得 可 以 用 其 他 数据 结构 类 实现 表 。 例 如 ， 
如 果 比 较 函 数 可 以 给 出 两 个 键 的 相对 顺序 ， 那 么 就 可 以 使 用 树 来 实现 
Table 接 口 。 使 用 二 又 查找 树 或 红 黑 树 重新 实现 Table 接 口 。 这 些 数 据 结 
构 的 细节 ， 请 参见 [Sedgewick，1990]。 


8.3 Table_ map 和 Table toArray 访 问 表 中 各 binding 实 例 的 顺序 是 未 
绰 定 的 。 假 定 要 修改 接口 ， 使 得 Table_map 按 binding 实 例 添 加 到 表 的 顺 
序 来 访问 各 实例 ， 而 Table toArray 返 回 的 数组 中 ， 各 个 binding 实 例 也 有 具 
有 相同 的 顺序 。 请 实现 该 修正 。 该 行为 有 什么 实际 的 好 处 ? 


8.4 假定 Table 接 口 规定 ，Table_map 和 Table_toArray 按 排序 次 序 访 
问 各 binding 实 例 。 该 规定 将 使 Table 的 实现 复杂 化 ， 但 将 简化 需要 对 
binding 实 例 排序 的 客户 程序 (如 wf) 的 工作 。 讨 论 该 提议 的 优点 并 实现 
它 。 提 示 : 在 当前 的 实现 中 ，Table_put 的 平均 情况 运行 时 间 是 常数 量 
级 ，Table_get 也 几乎 是 如 此 。 在 修改 后 的 实现 中 ，Table_put 和 Table_get 
的 平均 情况 运行 时 间 如 何 ? 














8.5 Table 接 口 的 当前 实现 中 ， 在 buckets 分 配 后 不 会 扩展 或 收缩 。 
修改 Table 接 口 的 实现 ， 使 得 随 着 键 一 值 对 的 增删 ， 修 改 后 的 实现 能 够 
使 用 一 种 启发 式 逻 辑 来 周期 性 地 调整 buckets 的 大 小 。 设 计 一 个 测试 程序 
来 检验 你 的 启发 式 逻 辑 的 有 效 性 ， 并 测量 其 好 处 。 


8.6 ”实现 [Larson，1988] 中 描述 的 线性 动态 散 列 算法 ， 并 对 照 你 对 
前 一 道 习题 的 解答 ， 比 较 二 者 的 性 能 。 





8.7 ”修改 wf.c， 以 测量 因 从 不 释放 原子 而 损失 的 内 存 空 间 数 量 。 


8.8 修改 wf.c 的 compare 函 数 ， 使 之 按 计数 值 递 减 次 序 对 数组 进行 
排序 。 


8.9 ”修改 wf.c， 使 之 按 文 件 名 字母 顺序 来 处 理 各 个 文件 参数 并 输 
出 。 这 样 改 变 后 ， 在 8.2 节 开头 给 出 的 例子 中 ， 对 mem.c 的 统计 将 出 现在 
对 table.c 的 统计 之 前 。 


第 9 草 ”集合 


集合 (set) 是 不 同 成 员 的 无 序 汇集 。 对 集合 的 基本 操作 包括 检验 
员 资 格 、 添 加 成 员 和 删除 成 员 。 其 他 操作 包括 集合 的 并 、 交 、 有 差 和 对 
称 差 。 给 定 两 个 集合 s 和 t， 并 集 s+t 是 包含 s 和 t 中 所 有 成 员 的 一 个 集合 ， 
交集 s*t 包 含 所 有 既 出 现在 s 中 、 也 出 现在 t 中 成 员 ， 差 集 s-t 包 含 所 有 仪 出 
现在 s 中 、 而 不 出 现在 t 中 的 成 员 ， 对 称 差 集 通 常 记 作 st， 包 含 了 所 有 仅 
出 现在 s 或 {其 中 之 一 的 成 员 。 








描述 集合 时 ， 通 常会 用 到 全 集 Cuniverse) ， 即 所 有 可 能 成 员 的 集 
合 。 例 如 ， 字 符 的 集合 通常 关联 到 由 256 个 八 位 字符 码 构 成 的 全 集 。 当 
确定 了 全 集 U 时 ， 可 以 定义 集合 s 的 补 集 ， 即 U-s。 


由 Set 接 口 提供 的 集合 不 依赖 全 集 。 该 接口 导出 了 操作 集合 成 员 的 
函数 ， 但 从 不 直接 查看 集合 成 员 。 在 这 方面 ，Set 接 口 的 设计 类 似 于 
Table 接 口 ， 都 由 客户 程序 提供 函数 来 得 看 特定 集合 中 成 员 的 属性 。 








应 用 程序 使 用 集合 的 方式 ， 与 使 用 表 的 方式 非常 相似 。 实 际 上 ， 
Set 接 口 定义 的 集合 与 表 类 似 : 集合 成 员 是 键 ， 而 与 键 天 联 的 值 被 忽略 
了 。 





) = 
#ifndef SET_INCLUDED 


#define SET_INCLUDED 


#define T Set_T 


typedef struct T *T; 


(exported functions 


100) 


#undef T 


#endif 


Set 接 口 导出 的 函数 分 为 四 组 : 分 配 和 释放 、 基 本 集合 操作 、 集 合 遍 历 
和 接受 集合 操作 数 并 返回 新 集合 的 操作 ， 如 集合 并 操作 。 前 三 组 中 的 函 
数 与 Table 接 口中 的 函数 类 似 。 


Set_T 实 例 由 下 列 函 数 分 配 和 释放 : 


‘exported functions 


100) = 

extern T Set_new (int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *x)); 


extern void Set_free(T *set); 


Set_new 分 配 、 初 始 化 并 返回 一 新 的 T 实 例 。hint 是 对 集合 预期 会 包含 的 
成 员 数 目的 一 个 人 和 估计， 准确 的 hint 值 可 能 会 提高 性 能 ， 但 任何 非 负 值 都 
是 可 接受 的 。cmp 用 来 比较 两 个 成 员 ，hash 用 来 将 成 员 映 射 到 无 符号 整 
数 。 给 定 两 个 成 员 x 和 y，cmp(x,y) 针 对 x 小 于 y、x 等 于 y 或 x 大 于 y 的 情 
形 ， 必 须 分 别 返 回 小 于 零 、 等 于 零 或 大 于 零 的 整数 。 如 果 cmp(Xy) 返 回 
0， 那 么 x 和 y 中 只 有 一 个 会 出 现在 集合 中 ， 而 且 hash(x) 必 定 等 于 
hash(y)。Set_new 可 能 引发 Mem_Failed 异 和 常 。 


如 果 cmp 为 NULL 函 数 指针 ， 那 么 假定 集合 的 成 员 为 原子 ， 如 于 
x=y， 那 么 两 个 成 员 x 和 y 就 是 相等 的 。 类 似 地 ， 如 果 hash 是 NULL 函 数 指 
针 ，Set_new 会 自行 提供 一 个 适合 于 原子 的 哈 希 函数 。 





Set_free 释 放 *set 并 将 其 赋值 为 NULL 指 针 。Set_free 并 不 释放 集合 的 
成 员 ， 该 工作 可 使 用 Set_map 完 成 。 如 果 传 递 给 Set_free 的 set 或 *set 为 
NULL 指 针 ， 则 是 已 检查 的 运行 时 错误 。 





基本 的 集合 操作 由 下 列 函数 所 供 : 


‘exported functions 


100) += 

extern int Set_length(T set); 

extern int Set_member(T set, const void *member); 
extern void Set_put (T set, const void *member); 


extern void *Set_remove(T set, const void *member); 


Set_lengthik HRA WN (cardinality) ， 或 其 所 包含 成 员 的 数目 。 如 果 
member 在 set 中 ，Set member 返回 1， 人 否则 返回 0。Set_put 将 member 潜 加 
到 set (如 果 member 尚 不 在 set 中 ) ，Set_put 可 能 引发 Mem_Failed 异 党 
Set_remove 将 member 从 set 删 除 〈 如 果 set 包 含 了 member) ， 并 返回 删除 
的 成 员 《〈 可 能 是 一 个 不 同 于 member 的 指针 ) 。 人 否则 《〈 即 member 不 在 set 
H) ，Set_remove 什 么 都 不 做 并 返回 NULL。 传 递 给 上 述 例 程 的 set 或 
member 为 NULL， 则 是 已 检查 的 运行 时 错误 。 








下 列 函 数 衣 历 一 个 集合 中 的 所 有 成 员 。 


‘exported functions 


100) += 


extern void Set_map (T set, 


void apply(const void *member, void *cl), void *cl); 


extern void **Set_toArray(T set, void *end); 





Set_map 对 集合 的 每 个 成 员 都 调用 apply。 它 会 将 成 员 本 身 和 客户 程序 相 
关 的 指针 cl 传递 给 apply。 它 并 不 查看 cl。 请 注意 ， 不 同 于 Table_map， 
apply 不 能 改变 集合 的 成 员 。 如 果 传 递 给 Set_map 的 apply 或 set 为 NULL， 
或 apply 调 用 Set_put 或 Set remove 来 改变 set 的 内 容 ， 则 构成 已 检查 的 运行 
时 错误 。 





Set_ toArray 返 回 一 个 指针 ， 指 同一 个 N+1 个 元 素 的 数组 ， 其 中 以 任 
意 顺 序 包含 了 集合 的 N 个 元 素 。end 的 值 ( 通 常 cures 针 ) 赋值 给 数 
组 的 第 N+1 个 元 素 。Set_toArray 可 能 引发 Mem_Failed 异 常 。 客 户 程 序 必 
须 释 放 返 回 的 数组 。 传 递 给 Set_toArray 的 set 为 NULL， i 是 已 检查 的 运 
行 时 错误 。 





下 列 各 函数 


(exported functions 


100) += 

extern T Set_union(T s, T t); 
extern T Set_inter(T s, T t); 
extern T Set_minus(T s, T t); 


extern T Set_diff (T s, T t); 


执行 本 章 开 头 描述 的 4 个 集合 操作 。S$et_union 返 回 S+t，Set_inter 返 回 


s*t，Set_minus 返 回 s-t，Set_diff 返 回 s/t。 所 有 这 4 个 函数 都 会 创建 并 返回 
新 的 IT 实例 并 可 能 引发 Mem_Failed 寞 常 。 这 些 函 数 将 为 NULL 的 s 或 解释 
为 空 集 ， 但 总 是 返回 一 个 新 的 、 非 NULL 的 T 实 例 。 因 而 ， 
Set_union(s,NULL) 返 回 s 的 一 个 副本 。 对 于 上 述 各 个 函数 ， 如 果 s 和 t 都 是 
NULL， 或 s 和 t 都 不 是 NULL， 但 二 者 的 比较 函数 和 哈 希 函数 不 同时 ， 则 
构成 已 检查 的 运行 时 错误 。 即 ， 此 前 调用 Set_new 创 建 s 和 t 时 ， 必 须 指 定 
了 相同 的 比较 函数 和 哈 希 函数 。 





9.2 例子 : 交叉 引用 列表 


xref 输 出 其 各 个 输入 文件 中 标识 符 的 交叉 引用 列表 ， 这 是 很 有 用 
的 ， 例 如 ， 可 用 于 找到 程序 源 文 件 中 对 特定 标识 符 的 所 有 引用 。 例 如 ， 





% xref xref.c getword.c 


FILE getword.c: 6 


xref.c: 18 43 72 


C getword.c: 7 8 9 10 11 16 19 22 27 34 35 


xref.c: 141 142 144 147 148 


输出 表明 ，FILE 用 于 getword.c 的 第 6 行 和 xref.c 的 第 18 行 、 第 43 行 和 第 72 
行 。 类 似 地 ，c 出 现在 getword.c 中 11 个 代码 行 ， 以 及 xref.c 中 的 5 个 代码 

行 。 一 个 行 号 只 列 出 一 次 ， 即 使 该 标识 符 在 这 一 行 出 现 了 多 次 。 输 出 按 
排序 次 序列 出 了 文件 和 行 号 。 


如 宁 程 序 没 有 参数 ，xref 将 输出 标准 输入 中 的 标识 符 的 交叉 引用 列 
表 ， 并 省 略 上 述 的 样 例 输出 中 的 文件 名 : 


% cat xref.c getword.c | xref 


FILE 18 43 72 157 


c 141 142 144 147 148 158 159 160 161 162 167 170 173 178 
185 186 ... 


xref 的 实现 说 明了 如 何 协同 使 用 集合 和 表 。 它 建立 了 一 个 表 ， 由 标 
识 符 索引 ， 而 每 个 相关 联 的 值 则 是 男 一 个 表 ， 由 文件 名 索引 。 表 中 的 值 
是 集合 ， 包 含 了 耕 干 整数 指针 ， 指 同 标识 符 出 现 的 行 号 。 图 9-1 描 述 了 
这 个 结构 ， 并 给 出 了 上 述 第 一 次 输出 后 与 标识 符 FILE 相 关 的 细节 。 在 单 
一 的 顶层 表 中 与 FILE 〈 在 下 文 的 代码 中 ， 即 为 标识 符 的 值 ) 相 关联 的 
值 ， 是 一 个 处 于 第 二 层 的 表 Table_ T， 包 含 了 两 个 键 : 表示 getword.c 和 
xref.c 的 原子 。 与 这 些 键 关 联 的 值 是 Set_T 实 例 ， 集 合 中 保存 的 是 整数 指 
针 ， 指 向 FILE 出 现 的 行 号 。 在 项 层 表 中 ， 对 于 每 个 标识 人 符 ， 都 有 一 个 二 
级 表 ; 在 每 一 个 二 级 表 中 ， 每 个 键 一 值 对 中 的 值 都 是 一 个 集合 。 




















标识 符 






由 文件 名 索引 的 表 
(若干 rable_T 实例 ) 


由 标识 符 索引 的 表 整数 指针 的 集合 
(一 个 rable_T 实例 ) (若干 set_T 实例 ) 


图 9-1 交叉 引用 列表 的 数据 结构 


(xref.c 


) = 


(xref includes 


103) 


(xref prototypes 


104) 


(xref data 


105) 


(xref functions 


102) 


xref 的 main 函 数 与 wf 的 非常 相似 : 它 创 建 标识 符 表 ， 然 后 处 理 文 件 名 参 
数 。 它 会 分 别 打 开 每 个 文件 ， 并 用 FILE 指 针 、 文 件 名 和 标识 符 表 作为 参 
数 ， 来 调用 xref 函 数 。 如 果 没 有 参数 ， 则 调用 xref 时 ， 传 递 的 参数 是 
NULL 文 件 名 指针 、 对 应 于 标准 输入 的 FILE 指 针 和 标识 符 表 : 





(xref functions 


102) = 
int main(int argc, char *argv[]) { 
int 1; 


Table _T identifiers = Table_new(0, NULL, NULL); 


for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv[i], "r"); 
if (fp == NULL) { 


fprintf(stderr, "%s: can't open '%s' (%s)\n", 


argv[0], argv[i], strerror(errno)); 
return EXIT_FAILURE; 
} else { 
xref(argv[i], fp, identifiers); 


fclose(fp); 


} 
if (argc == 1) xref(NULL, stdin, identifiers); 


(print the identifiers 


103) 
return EXIT_SUCCESS,; 


(xref includes 


103) = 

#include <stdio.h> 

#include <stdlib.h> 
#include <errno.h> 


#include "table.h" 


xref 会 建立 一 个 复杂 的 数据 结构 ， 如 果 衣 先 考察 如 何 输出 该 数据 结 


RAMA GE ee PB oD), MANER Sy BE A A SEI 
数据 结构 。 编 写 独立 的 代码 块 或 函数 来 分 别处 理 数 据 结 构 的 各 个 组 成 部 
分 ， 有 助 于 读者 理解 过 历 过 程 的 细节 。 





第 一 步 建 立 标识 符 及 其 值 〈 二 级 表 ) 的 数组 ， 并 按 标 识 符 对 数组 排 
序 ， 然 后 遍历 数组 调用 另 一 个 函数 print 来 处 理 各 个 二 级 表 。 这 个 步骤 与 
wf 的 代码 块 <print the words 103> 很 相似 。 


(print the identifiers 


103) = 


int 1; 

void **array = Table_toArray(identifiers, NULL); 

qsort(array, Table_length(identifiers), 
2*sizeof (*array), compare); 

for (i = 0; array[i]; i += 2) { 
printf("%s", (char *)array[1]); 
print(array[it+1]); 

} 

FREE(array); 

} 


identifiers 中 的 各 个 键 是 原子 ， 因 此 传递 给 标准 库 函 数 qsort 的 比较 函数 
compare， 与 wf 中 使 用 的 compare 是 相同 的 ， 都 使 用 strcmp 来 比较 一 对 标 
识 符 〈8.2 节 解释 了 qsort 的 参数 ) : 





(xref functions 


102) += 
int compare(const void *x, const void *y) { 


return strcmp(*(char **)x, *(char **)y); 


(xref includes 


103) += 


#include <string.h> 


(xref prototypes 


104) = 


int compare(const void *x, const void *y); 








identifiers 中 的 每 个 值 都 是 另 一 个 表 ， 将 传递 给 print 函 数 。 这 个 表 中 
的 键 是 表示 文件 名 的 原子 ， 因 此 可 以 使 用 与 上 文 类 似 的 代码 ， 将 键 和 值 
导出 到 一 个 数组 中 排序 并 壳 历 。 





(xref functions 


102) += 
void print(Table_T files) { 
int 1; 


void **array = Table_toArray(files, NULL); 


qsort(array, Table_length(files), 2*sizeof (*array), 
compare); 
for (i = 0; array[i]; i += 2) { 
if (*(char *)array[i] != '\0') 
printf("\t%s:", (char *)array[1i]); 


(print the line numbers in the set 


array[it1] 104) 
printf("\n"); 
} 


FREE(array); 


} 
(xref prototypes 


104) += 


void print(Table_T); 





print A] 以 使 用 compare， 因 为 相关 的 键 只 是 字符 串 。 如 果 没 有 文件 名 参 
数 ， 那 么 传递 给 print 的 每 个 表 都 只 有 一 个 项 ， 其 键 是 一 个 零 长 度 的 原 
子 。print 使 用 该 约定 ， 来 避免 在 输出 行 号 列表 之 前 输出 文件 名 。 











传递 给 print 的 表 中 ， 每 个 值 都 是 一 个 行 号 的 集合 。 因 为 Set 实 现 了 指 
针 的 集合 ，xref 用 指 辣 整数 的 指针 来 表示 行 写 ， 并 将 这 些 指针 添加 到 集 
合 中 。 为 输出 它们 ， 程 序 调用 Set_toArray 构 建 并 返回 一 个 整数 指针 的 数 
组 ， 以 NULL 指 针 结尾 ， 然 后 排序 该 数组 并 输出 整数 行 号 : 


‘print the line numbers in the set 


array[i+1] 104) = 
{ 

int j; 

void **lines = Set_toArray(array[i+1], NULL); 

qsort(lines, Set_length(array[it+1]), sizeof (*lines), 
cmpint); 

for (j = 0; lines[j]; j++) 
printf(" %d", *(int *)lines[j]); 

FREE( lines); 

} 


cmpint 与 compare 类 似 ， 但 其 参数 为 两 个 指 回 整数 的 双重 指针 ， 通 过 比 


较 整 数值 来 返回 结果 : 


(xref functions 


102) += 
int cmpint(const void *x, const void *y) { 
if (**(int **)x < **(int **)y) 
return -1; 
else if (**(int **)x > **(int **)y) 
return +1; 
else 


return 0; 


(xref prototypes 


104) += 


int cmpint(const void *x, const void *y); 


xref 建 立 上 述 代 码 输出 的 数据 结构 时 ， 使 用 的 是 此 前 讨论 过 的 代 
Ay o 它 使 用 getword 从 输入 读 取 标识 符 o 对 于 每 个 标识 符 ’ 程序 从 数据 
结构 中 找到 对 应 的 集合 ， 并 将 当前 行 号 添加 到 集合 中 : 





(xref functions 


102) += 
void xref(const char *name, FILE *fp, 
Table _T identifiers) { 


char buf[128]; 


if (name == NULL) 
name = ""; 
name = Atom_string(name) ; 
linenum = 1; 
while (getword(fp, buf, sizeof buf, first, rest)) { 
Set_T set; 
Table_T files; 
const char *id = Atom_string(buf); 


(files - file table in 


identifiers associated with 


id 106) 


(set - set in 


files associated with 


name 106) 
(add 


linenum to 


set, if necessary 


107) 


(xref includes 


103) += 
#include 
#include 
#include 


#include 


"atom.h" 
"set.h" 
"mem. h" 


"getword.h" 


(xref prototypes 


104) += 


void xref(const char 


* 
了 


FILE *, Table_T); 





linenum 是 一 个 全 局 变量 ， 


1，first 是 传递 给 getword 的 


(xref data 


105) = 


int linenum; 


(xref functions 


函 


次 first 遇 到 一 个 换行 符 时 ， 都 将 linenum 加 
数 指针 参数 ， 用 于 识别 标识 符 的 首 字母 : 


102) += 
int first(int c) { 
if (c == '\n') 
linenum++; 


return isalpha(c) || c == '_'; 


int rest(int c) { 


return isalpha(c) || c == '_' || isdigit(c); 


(xref includes 


103) += 


#include <ctype.h> 


getword 以 及 传递 给 它 的 first 和 rest 函 数 ， 已 经 在 8.2 节 描述 过 。 


(xref prototypes 


104) += 
int first(int c); 


int rest (int c); 


罕 过 两 层 表 以 找到 适当 集合 的 代码 ， 必 须 处 理 数 据 结构 中 某 些 部 分 
缺失 的 问题 。 例 如 ， 在 第 一 次 过 到 某 个 标识 符 时 ，identifiers 表 中 没有 对 
应 的 项 ， 因 此 代码 需要 创建 文件 表 《〈 下 面 代码 中 的 files 表 ) ， 并 将 “标识 
符 一 文件 表 ” 对 (下 面 代码 中 的 id 和 他 es〉 即 时 添加 到 identifiers 表 : 











(files - file table in 


identifiers associated with 


id 106) = 

files = Table_get(identifiers, id); 

if (files == NULL) { 
files = Table_new(0, NULL, NULL); 
Table_put(identifiers, id, files); 


} 


类 似 地 ， 在 一 个 新 文件 中 第 一 次 遇 到 某 个 标识 符 时 ， 行 号 的 集合 尚 不 存 
在 ， 因 此 需要 创建 一 个 新 集合 并 将 其 添加 到 fles 表 : 


(set — set in 


files associated with 


name 106) = 
set = Table_get(files, name); 
if (set == NULL) { 
set = Set_new(0, intcmp, inthash); 


Table _put(files, name, set); 


这 些 集合 的 成 员 是 指 同 整数 的 指针 ，intcemp 和 inthash 比 较 并 散 列 整数 
值 。intcmp 类 似 上 文 的 cmpint， 但 其 参数 是 集合 中 的 指针 ， 因 此 它 可 以 
调用 cmpint。 可 以 直接 用 整数 本 映 作 为 其 哈 希 码 : 





(xref functions 


102) += 
int intcmp(const void *x, const void *y) { 


return cmpint(&x, &y); 


unsigned inthash(const void *x) { 


return *(int *)x; 


(xref prototypes 


104) += 
int intcmp (const void *x, const void *y); 


unsigned inthash(const void *x); 

在 控制 到 达 代 码 块 <add linenum to set, if necessary 107> 时 ，set 就 是 
应 该 插入 当前 行 写 的 目标 集合 。 插 入 操作 由 下 述 代 码 完成 : 
int *p; 
NEW(p); 
*p = linenum; 
Set_put(set, p); 
{AM Rset 4 Glinenum, ZARIK EAF E EA a Ae 
内 存 空 间 的 指针 不 会 添加 集合 中 出 。 仅 当 linenum 不 在 set 中 时 才 分 配 内 
存 空间 ， 即 可 避免 内 存 泄漏 。 


‘add 


linenum to 


set, if necessary 


107) = 


int *p = &linenum; 

if (!Set_member(set, p)) { 
NEW(p); 
*p = linenum; 


Set_put(set, p); 


9.3 ”实现 








Set 接 口 的 实现 与 Table 的 实现 非常 相似 。 它 用 哈 希 表 表 示 和 集合 ， 并 


使 用 比较 函数 和 哈 希 函数 在 表 中 定位 成 员 。 章 后 的 习题 ， 
和 Table 接 口 的 实现 ， 探 讨 了 一 些 可 行 的 备 选 方案 。 


(set.c 


) = 
#include 
#include 
#include 
#include 
#include 


#include 











<limits.h> 
<stddef.h> 
"mem. h" 
"assert.h" 
"arith.h" 


"set.h" 


#define T Set_T 


(types 


108) 


(static functions 


针对 下 述 实现 


108) 


(functions 


108) 





Set_T 是 一 个 哈 希 表 ， 其 中 通过 链表 来 保存 集合 的 成 员 : 


(types 


108) = 
struct T { 
int length; 
unsigned timestamp; 
int (*cmp)(const void *x, const void *y); 
unsigned (*hash)(const void *x); 
int size; 
struct member { 
struct member *link; 
const void *member; 


} **buckets; 


}; 


length 是 集合 中 成 员 的 数目 ，timestamp 用 于 实现 Set_map 中 的 已 检查 的 运 
行 时 错误 ， 即 禁止 apply 修 改 集 合 ，cmp 和 hash 分 别 指向 比较 函数 和 哈 希 
函数 。 


类 似 Table_new，Set _ new 会 为 buckets 数 组 计算 一 个 适当 的 容量 ， 
将 容量 值 记录 在 size 字 段 中 ， 并 分 配 struct TI 实例 和 buckets 数 组 所 需 的 空 
间 : 


(functions 


108) = 
T Set_new(int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *x)) { 
T set; 
int 1; 
static int primes[] = { 509, 509, 1021, 2053, 4093, 
8191, 16381, 32771, 65521, INT_MAX }; 


assert(hint >= 0); 
for (i = 1; primes[i] < hint; i++) 
set = ALLOC(sizeof (*set) + 


primes[i-1]*sizeof (set->buckets[0])); 


set->size = primes[i-1]; 

set->cmp = cmp ? cmp : cmpatom; 

set->hash = hash ? hash : hashatom; 

set->buckets = (struct member **)(set + 1); 

for (i = 0; i < set->size; i++) 
set->buckets[i] = NULL; 

set->length = 0; 

set->timestamp = 0; 


return set; 


Set_new 使 用 hint 选 择 primes 中 的 一 个 值 ， 作 为 buckets 数 组 的 容量 (参见 
8.3 节 ) 。 如 果 成 员 是 原子 (cmp 或 者 hash 是 NULL 函 数 指针 ， 即 表明 这 
一 点 ) ，S$et_new 将 使 用 下 列 比较 和 哈 希 函数 ， 这 与 Table_new 使 用 的 函 
数 是 相同 的 。 


(static functions 


108) = 
static int cmpatom(const void *x, const void *y) { 


return x != y; 


static unsigned hashatom(const void *x) { 


return (unsigned long)x>>2; 


9.3.1 成员 操作 


检验 成 员 资格 类 似 在 表 中 和 碍 找 键 : 散 列 所 检验 的 成 员 ， 并 搜索 
buckets 中 与 散 列 值 对 应 的 链表 


(functions 


108) += 
int Set_member(T set, const void *member) { 
int 1; 


struct member *p; 
assert(set); 


assert(member ); 


(search 


set for 


member 109) 


return p != NULL; 


(search 


set for 


member 109) = 
1 = (*set->hash) (member )%set->size; 
for (p = set->buckets[i]; p; p = p->link) 
if ((*set->cmp)(member, p->member) == 0) 


break; 


如 果 搜 索取 得 成 功 ， 那 么 p 不 是 NULL， 和 否则 为 NULL， 因 此 检验 p 即 可 
确定 Set_ member 的 结果 。 





添加 一 个 新 成 员 的 过 程 类 似 ， 搜索 集合 得 找 该 成 员 ， 如 果 搜 索 失 败 
则 添加 它 。 


(functions 


108) += 
void Set_put(T set, const void *member) { 
int 1; 


struct member *p; 


assert(set); 


assert(member ); 


(search 


set for 


member 109) 
if (p == NULL) { 
(add 


member t 


o set 109) 


} else 


p->member = member; 


set->timestamp++; 


(add 


member to 


set 109) = 

NEW(p); 

p->member = member; 
p->link = set->buckets[i]; 
set->buckets[i] = p; 


set->length++; 





timestamp 用 于 Set_map 中 ， 以 强制 实施 已 检查 的 运行 时 错误 。 


Set_remove 会 删除 一 个 成 员 ， 该 函数 使 用 一 个 指向 member 结 构 的 双 
重 指针 pp 过 历 适 当 的 哈 希 链 ， 直 至 *pp 为 NULEL 或 (*pp)->member 即 为 我 
们 感 兴趣 的 成 员 ， 后 一 种 情况 下 ， 下 述 代 码 中 的 赋值 操作 *pp=(*pp)- 
>link 即 可 从 哈 希 链 中 删除 该 成 员 。 


(functions 


108) += 
void *Set_remove(T set, const void *member) { 
int 1; 


struct member **pp; 


assert(set); 
assert(member ); 
set->timestamp++; 
1 = (*set->hash) (member )%set->size; 
for (pp = &set->buckets[i]; *pp; pp = &(*pp)->link) 
if ((*set->cmp)(member, (*pp)->member) == 0) { 
struct member *p = *pp; 
*pp = p->link; 
member = p->member; 
FREE(Pp); 
set->length--; 
return (void *)member; 


} 
return NULL; 


使 用 pp 遍历 哈 希 链 ， 这 使 用 了 与 Table_remove 相 同 的 惯用 法 ， 请 参见 8.3 
“fle 


Set_remove 和 Set_put 通 过 将 集合 的 leangth 字 段 减 1 和 加 1 来 跟踪 集合 


中 成 员 的 数目 ，Set_length 函 数 会 返回 该 字段 : 


(functions 


108) += 
int Set_length(T set) { 
assert(set); 


return set->length; 


UREA EAE, Set_free FFE ital Sa a HE, PERO 
的 member 络 构 实 例 ， 然 后 才能 释放 集合 本 号 并 将 *set 清 零 。 


(functions 


108) += 
void Set_free(T *set) { 
assert(set && *set); 
if ((*set)->length > 0) { 
int 1; 
struct member *p, *q; 
for (i = 0; 1 < (*set)->size; i++) 
for (p = (*set)->buckets[i]; p; p = q) { 
q = p->link; 


FREE(p); 


} 


} 
FREE(*set); 


Set_map 与 Table_map 几 乎 相同 : 
员 调 用 apply。 


(functions 


108) += 


void Set_map(T set, 


> 


K 


TS MRA HE, FPL RES ak 


void apply(const void *member, void *cl), void *cl) { 


int 1; 
unsigned stamp; 


struct member *p; 


assert(set); 
assert(apply); 


stamp = set->timestamp; 


for (i = 0; i < set->size; i++) 


for (p = set->buckets[i]; p; p = p->link) { 


apply(p->member, cl); 


assert(set->timestamp 


== stamp); 


一 个 差别 是 ，Set_map 将 每 个 成 员 〔 而 不 是 指 同 每 个 成 员 的 指针 )〉 传递 
给 apply， 因 此 apply 不 能 改变 集合 中 的 指针 。 但 它 仍然 可 以 通过 转换 ， 
来 修改 这 些 成 员 所 指 同 的 值 ， 这 会 破坏 集合 的 语义 。 


Set_toArray 比 Table_toArray 人 简单 ， 类 似 List_toArray， 它 只 需 分配 一 


个 数组 并 将 集合 的 成 员 复 制 到 数组 中 : 


(functions 


108) += 

void **Set_toArray(T set, void *end) { 
int i, j = 0; 
void **array; 


struct member *p; 


assert(set); 
array = ALLOC((set->length + 1)*sizeof (*array)); 
for (i = 0; i < set->size; i++) 
for (p = set->buckets[1i]; p; p = p->link) 
array[j++] = (void *)p->member; 
array[j] = end; 


return array; 


p->member 必 须 从 const void* 转 换 为 void*， 因 为 数组 并 未 声明 为 常 


i 


9.3.2 ”集合 操作 


所 有 4 个 集合 操作 的 实现 都 是 类 似 的 。 例 如 ，s + t 通 过 将 s 和 t 的 每 个 
成 员 都 添加 到 一 个 新 的 集合 来 实现 ， 实 现时 可 以 首先 建立 s 的 一 个 副 
本 ， 而 后 将 t 的 各 个 成 员 都 谎 加 到 副本 中 《如 果 尚 未 包含 在 该 集合 中 的 
话 ) : 


(functions 


108) += 
T Set_union(T s, T t) { 
if (s == NULL) { 
assert(t); 
return copy(t, t->size); 
} else if (t == NULL) 
return copy(s, sS->size); 
else { 
T set = copy(s, Arith_max(s->size, t->size)); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 
Set_put(set, q->member); 


} 


return set; 


(for each member 


t 112) = 

int i; 

struct member *q; 

for (i = 0; i < t->size; i++) 


for (q = t->buckets[i]; q; q = q->link) 
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(static functions 


108) += 
static T copy(T t, int hint) { 


T set; 
assert(t); 


set = Set_new(hint, t->cmp, t->hash); 


{ (for each member 


t 112) 
(add 


q->member to 


set 112) 
} 


return set; 


(add 


q->member to 


set 112) = 
{ 
struct member *p; 
const void *member = q->member; 
int 1 = (*set->hash) (member )%set->size; 


(add 


member to 


set 109) 
} 





Set_union 和 copy 都 可 以 访问 特许 信息 : 它们 都 知道 集合 的 表示 ， 因 而 可 
以 通过 向 Set_new 传 递 适 当 的 hint 值 ， 来 为 新 的 集合 指定 喻 希 表 的 大 小 。 

Set_union 在 建立 s 的 副本 时 需要 提供 hint， 它 使 用 s 或 t 中 较 大 的 哈 希 表 的 

容量 ， 因 为 结果 集合 包含 的 成 员 数 目 ， 至 少 等 于 Set_union 中 最 大 的 参数 
集合 的 成 员 数 。copy 可 以 调用 Set_put 将 每 个 成 员 添 加 到 副本 集合 中 ， 但 
它 使 用 <add q->member to set 155> 代 码 块 ， 这 使 得 添加 操作 更 为 直接 ， 

避免 了 Set_put 中 不 必要 的 搜索 步骤 。 











交集 操作 s*t， 将 利用 s 或 t 中 较 小 的 哈 希 表 创 建 一 个 新 的 集合 ， 仅 当 
某 个 成 员 同 时 出 现在 s 和 t 中 时 ， 才 将 其 添加 到 新 的 集合 : 


(functions 


108) += 
T Set_inter(T s, Tt) { 
if (s == NULL) { 
assert(t); 
return Set_new(t->size, t->cmp, t->hash); 
} else if (t == NULL) 
return Set_new(s->size, s->cmp, s->hash); 
else if (s->length < t->length) 


return Set_inter(t, s); 


else { 
T set = Set_new(Arith_min(s->size, t->size), 
s->cmp, s->hash); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


q in 


t 112) 
if (Set_member(s, q->member ) ) 


(add 


q->member to 


set 112) 
} 


return set; 


如 果 s$ 成 员 数 比 t 少 ， 那 么 Set_inter 将 在 调换 s 和 t 之 后 ， 递 归 调 用 自身 钙 。 
这 使 得 最 后 一 个 else 子 句 中 的 for 循 环 将 损 历 较 小 的 集合 。 


差 集 操作 s-t 将 创建 一 个 新 集合 ， 并 将 s 中 那些 不 属于 t 的 成 员 添 加 到 
新 集合 中 。 下 述 代码 调换 “了 参数 的 名 称 ， 以 便 使 用 代码 块 <for each 
member q int 112> 来 裔 历 s: 





(functions 


108) += 
T Set_minus(T t, T s) { 
if (t == NULL){ 
assert(s); 
return Set_new(s->size, s->cmp, s->hash); 
} else if (s == NULL) 
return copy(t, t->size); 
else { 
T set = Set_new(Arith_min(s->size, t->size), 
s->cmp, s->hash); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 


if (!Set_member(s, q->member) ) 


(add 
q->member to 
set 112) 
} 
return set; 
} 
} 


对 称 差 操作 s/t 创建 的 集合 中 ， 其 成 员 只 出 现在 s 或 其 中 一 个 集合 
中 ， 而 不 会 同时 出 现在 S 和 t 中 。 如 打 s 或 t 是 空 集 ， 那 么 St 等 于 {t 或 s。 合 
则 ，s/t 等 于 (s-t)+(t-s)， 即 首先 衣 历 s， 将 不 在 t 中 的 各 个 成 员 添 加 到 新 集 
合 中 ， 而 后 授 历 t， 将 不 在 s 中 的 各 个 成 员 添 加 到 新 集合 。 代 码 块 <for 
each member q in t 112> 可 以 用 于 这 两 次 表 历 ， 只 需要 在 两 次 授 历 之 间 切 
换 s 和 t 的 值 即 可 : 





(functions 


108) += 
T Set_diff(T s, Tt) { 
if (s == NULL) { 
assert(t); 
return copy(t, t->size); 
} else if (t == NULL) 
return copy(s, sS->size); 
else { 
T set = Set_new(Arith_min(s->size, t->size), 
s->cmp, s->hash); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 
if (!Set_member(s, q->member)) 


(add 


q->member to 


set 112) 
} 
{TUu=t;t=s; s =u; } 
{ (for each member 

q in 

t 112) 


if (!Set_member(s, q->member) ) 


(add 


q->member to 


set 112) 
} 


return set; 


这 4 个 操作 的 更 高 效 实现 是 可 能 的 ， 习 题 探 讨 了 其 中 一 些 方案 。 一 
个 特例 是 当 s 和 t 中 的 哈 希 表 容 量 相同 时 ， 这 对 一 些 应 用 程序 可 能 是 比较 
重要 的 ， 参 见习 题 9.7。 





9.4 扩展 阅读 


Set 接 口 导出 的 集合 模仿 了 Icon[Griswold and Griswold，1990] 中 的 集 
合 ， 其 实现 也 类 似 于 Icon[Griswold and Griswold，1986] 中 的 实现 。 对 于 
固定 的 、 较 小 的 全 集 来 说， 通常 使 用 位 同 量 来 表示 和 集合， 第 13 章 描述 了 
使 用 该 方法 的 一 个 接口 。 








Icon 是 将 集合 作为 内 建 数据 类 型 的 少数 语言 之 一 。 集 合 是 SETL 中 的 
中 心 数据 类 型 ， 其 大 部 分 运算 符 和 控制 结构 都 用 来 操作 集合 。 
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9.1 使 用 Table 接 口 实现 Set 接 口 。 


9.2 ”使 用 Set 接 口 实现 Table 接 口 。 





9.3 ”Set 和 Table 接 口 的 实现 有 许多 共同 之 处 。 设 计 并 实现 男 一 个 接 
口 ， 提 炼 出 三 者 的 共同 特性 。 该 接口 的 目的 是 ， 支 持 类 似 集合 和 表 的 
ADT 的 实现 。 使 用 你 的 新 接口 ， 重 新 使 用 Set 和 Table 接 口 。 





9.4 为 包 (bag) 设计 一 个 接口 。 包 类 似 集合 ， 但 其 成 员 可 以 出 现 
多 次 。 例 如 ，{1L 2 3} 是 一 个 整数 集合 ， 而 {1 1 2 2 3} 是 一 个 整数 包 。 使 
用 前 一 道 习 题 中 设计 的 支持 接口 ， 来 实现 本 接口 。 








9.5 ”copy 在 创建 其 参数 集合 的 副本 时 ， 每 次 复制 一 个 成 员 。 因 为 它 
知道 副本 中 成 员 的 数目 ， 因 此 可 以 一 次 性 地 分 配 所 有 的 member 结 构 实 
例 ， 然 后 在 填充 副本 集合 时 将 这 些 member 实 例 添 加 到 适当 的 哈 希 链 。 
实现 该 方案 并 测量 其 好 处 。 


9.6 ”通过 在 member 结 构 中 存储 哈 希 码 ， 可 能 使 一 些 集合 操作 更 高 
效 ， 这 样 对 每 个 成 员 只 需 调 用 一 次 hash， 仅 当 哈 希 码 相 等 时 才 需 要 调用 
比较 函数 。 分 析 此 项 改进 预期 会 节省 的 时 间 ， 如 果 看 起 来 值得 ， 那 么 实 
现 该 改进 并 测量 改进 后 的 结果 。 





9.7 ” 当 s 和 t 中 哈 希 桶 数目 相同 时 ，s+t 相 当 于 位 于 相同 哈 希 链 上 的 各 
个 子 集 的 并 集 。 即 s+t 中 的 每 个 哈 希 链 ， 是 s 和 t 中 对 应 哈 希 链 上 的 成 员 的 
并 集 。 这 种 情况 经 间 发 生 ， 因 为 许多 应 用 程序 在 调用 Set_new 时 指定 了 


相同 的 hint。 改 变 s + t、s * t、s - ts / t 的 实现 ， 以 检测 这 种 情况 ， 并 对 
其 使 用 更 简单 、 更 高 效 的 实现 。 


9.8 ”如果 一 个 标识 符 出 现在 几 个 连续 行 中 ，xref 将 输出 每 一 个 行 
are 例如 : 


C getword.c: 7 8 9 10 11 16 19 22 27 34 35 


图 


修改 xrefc， 使 之 将 多 个 连续 行 号 蔡 换 为 一 个 行 范 


C getword.c: 7-11 16 19 22 27 34-35 





9.9. ”xref 分配 大 量 内 存 ， 但 仪 释放 Table_toArray 创 建 的 数组 。 修 改 
xref， 使 之 最 终 释 放 它 分 配 的 所 有 东西 (当然 ， 原 子 除外 〉 。 在 数据 结 
构 输 出 时 ， 很 容易 增 量 式 地 完成 释放 工作 。 使 用 习题 5.5 的 答案 ， 来 确 
认 是 否 释 放 了 所 有 分 配 的 东西 。 








9.10 ”解释 cmpint 和 intcmp 为 何 使 用 显 式 比较 来 比较 整数 ， 而 不 是 
返回 二 者 相 减 的 结果 。 即 cmpint 的 下 述 版 本 看 起 来 简单 得 多 ， 它 有 什么 


问题 呢 ? 


int cmpint(const void *x, const void *y) { 


return **(int **)x = ** (int **)y; 








[1] 应 当 是 集合 ， 不 是 表 。 译 者 注 


[2] 其 实 可 以 直接 调换 s 和 t， 不 必要 递归 。 一 一 译 者 注 


第 10 草 ”动态 数组 


数组 是 由 相同 类 型 值 组 成 的 一 个 序列 ， 序 列 中 的 元 素 以 一 对 一 的 方 
式 关联 到 某 个 连续 范围 内 的 索引 值 。 在 几乎 所 有 编程 语言 中 ， 都 把 某 些 
形式 的 数组 作为 内 建 的 数据 类 型 。 在 东 些 语言 〈 如 C 语 言 ) 中 ， 所 有 数 
组 索引 值 有 共同 的 下 界 ， 而 在 其 他 的 语言 中 (如 Modula-3) ， 每 个 数组 
都 可 以 有 目 身 的 索引 值 边 界 。 在 C 语 言 中 ， 所 有 数组 的 索引 都 从 0 开始 。 








数组 的 大 小 可 以 在 编译 时 或 运行 时 指定 。 静 态 ”数组 的 大 小 在 编译 
时 瓯 是 已 知 的。 例如 ， 在 C 语 言 中 声明 数组 时 ， 数 组 的 大 小 必须 在 编译 
Nite hay, RUE Hint aln] 中 ，n 必 须 是 常量 表达 式 。 裔 态 数 组 可 
以 在 运行 时 分 配 ， 例 如 ， 作 为 局 部 变量 的 数组 ， 丈 是 在 运行 时 调用 其 所 
在 函数 时 分 配 的 ， 但 其 大 小 是 编译 时 就 是 已 知 的 。 








像 Table_toArray 这 样 的 函数 返回 的 数组 是 动态 数组 ， 因 为 其 内 存 空 
间 是 通过 调用 malloc 或 等 效 的 分 配 函 数 分 配 的 。 因 此 ， 他 们 的 大 小 可 以 
在 运行 时 确定 。 一 些 语 言 (如 Modula-3) ， 在 语言 层面 支持 动态 数组 。 
但 在 C 语 言 中 ， 动 态 数 组 必须 显 式 构造 ， 如 Table_toArray 函 数 所 示 。 








各 种 toArray 函 数 都 说 明了 动态 数组 是 多 么 有 用 ， 本 章 描 述 的 Array 
ADT 提 供 了 一 种 类 似 但 更 为 通用 的 设施 。 它 导出 的 函数 可 以 分 配 并 释放 
动态 数组 ， 可 以 访问 动态 数组 并 进行 边界 检查 ， 可 以 扩展 或 收缩 动态 数 
组 以 容纳 更 多 或 更 少 的 元 系 。 


本 章 还 描述 了 ArrayRep 接 口 。 对 少数 需要 更 高 效 地 访问 数组 元 素 的 





客户 程序 ， 该 接口 披露 了 动态 数组 的 表示 细节 。Array 和 ArrayRep 共 同 
说 明了 一 个 二 级 接口 或 分 层 的 接口 。Array 规 定 了 数组 ADT 的 高 层 视 
图 ，ArrayRep 规 定 了 该 ADT 在 较 低层 次 上 的 男 一 个 更 详细 的 视图 。 这 种 
组 织 方 式 的 好 处 在 于 ， 如 果 有 客户 程序 导入 了 ArrayRep 接 口 ， 那 么 很 显 
然 ， 它 们 将 依赖 于 动态 数组 的 表示 。 对 表示 的 修改 将 只 影响 此 类 客户 程 
序 ， 而 不 会 影响 到 只 导入 Array 接 口 的 那些 客户 程序 〈 比 前 一 类 多 得 


#) 





10.1 接口 


如 下 的 Array ADT 


(array.h 


= 
#ifndef ARRAY_INCLUDED 


#define ARRAY_INCLUDED 


#define T Array_T 


typedef struct T *T; 


(exported functions 


117) 


#undef T 


#endif 


导出 了 一 些 函 数 ， 可 以 操作 包含 N 个 元 素 的 数组 ， 通 过 索引 值 0 到 N-1 访 
问 。 特 定数 组 中 的 每 个 元 素 部 是 定 长 的 ， 但 不 同 数组 的 元 素 可 以 有 不 同 











的 大 小 。Array_T 实 例 通过 下 列 函 数 分 配 和 释放 : 


(exported functions 


117) = 
extern T Array_new (int length, int size); 


extern void Array_free(T *array); 


Array_new 分 配 、 初 始 化 并 返回 一 个 新 的 数组 ， 包 含 length 个 元 素 ， 可 以 
用 索引 值 0 到 length-1 访 问 ， 在 length 为 0 时 ， 数 组 不 包含 任何 元 素 。 每 个 
元 素 占 size 字 节 。 每 个 元 素 中 的 各 个 字 节 都 初始 化 为 0。size 必 须 包 含 对 
齐 所 需 的 填充 字 节 ， 这 样 ， 在 length 为 正 值 时 ， 直 接 分 配 length * size 个 
字 节 即 可 创建 数组 。 如 果 length 为 负 值 或 size 不 是 正 值 ， 则 造成 已 检查 的 
运行 时 错误 ，Array_new 可 能 引发 Mem_Failed 异 名 © 





Array_free 释 放 *array 并 将 其 清 零 。 如 果 array 或 *array 是 NULL， 则 
是 已 检查 的 运行 时 错误 。 











不 同 于 本 书 中 大 部 分 其 他 ADT 在 void 指针 基础 上 建立 结构 的 方式 ， 
Array 接 口 对 元 系 的 值 不 作 任 何 限制 ， 每 个 元 系 只 是 一 个 字 节 序列 ， 包 
含 size 个 字 节 。 这 种 设计 的 基本 原理 是 ，Array_T 通 常用 于 构建 其 他 
ADT: 第 11 章 描述 的 序列 融 是 一 个 例子 。 








下 列 各 函数 


(exported functions 


117) += 
extern int Array_length(T array); 


extern int Array_size (T array); 





iR Elarray FcR MLA RIAA. BAT RII F A K BC i : 


(exported functions 


117) += 
extern void *Array_get(T array, int i); 


extern void *Array_put(T array, int i, void *elem); 





Array_get 返 回 指向 编号 为 i 的 元 素 的 指针 ， 类 比 而 言 ， 假 定 a 声 明 为 C 语 
言 数 组 ， 那 么 该 函数 的 语义 类 似 于 &a[ij。 客 户 程序 通过 反 引 用 
Array_get 返 回 的 指针 ， 即 可 访问 元 素 的 值 。Array_put 用 elem 指 同 的 新 元 
素 ， 履 盖 元 素 i 的 值 。 不 同 于 Table_put，Array_put 返 回 elem。 它 不 能 返 
回 元 素 i 先前 的 值 ， 因 为 元 素 未 必 是 指针 ， 而 且 元 素 也 可 能 是 任意 字 市 
se 














如 果 i 大 于 或 等 于 array 的 长 度 ， 或 elem 是 NULL， 则 是 已 检查 的 运行 
时 错误 。 首 先 调用 Array_get， 而 后 在 反 引 用 Array_get 返 回 的 指针 之 前 ， 
通过 Array_resize 改 变 array 的 大 小 ， 则 造成 未 检查 的 运行 时 错误 。 如 果 
elem 指 同 的 内 存 空间 ， 以 任何 方式 与 array 的 第 个 元 系 的 内 存 空间 重 
登 ， 都 是 未 检查 的 运行 时 错误 。 











(exported functions 


117) += 
extern void Array_resize(T array, int length); 


extern T Array_copy (T array, int length); 


Array_resize 改 变 array 的 大 小 ， 使 之 能 够 容纳 length 个 元 素 ， 会 根据 
需要 扩展 或 收缩 数组 。 如 果 length 超 过 数组 的 当前 长 度 ， 则 增加 的 新 元 
素 被 初始 化 为 0。 调 用 Array_resize， 将 使 此 前 调用 Array_get 返 回 的 值 都 
变 为 无 效 。Array_copy 的 语义 类 似 ， 但 将 返回 array 的 一 个 副本 ， 包 售 
array 的 前 length 个 元 素 。 如 果 length 超 过 array 中 元 素 的 数目 ， 副 本 中 过 多 
的 那些 元 素 将 被 初始 化 为 0。Array_resize 和 Array_copy 可 能 引发 
Mem_Failed 异 常 。 


Array 没 有 类 似 Table_ map 和 Table toArray 的 函数 ， 因 为 Array_get 提 
供 了 执行 等 效 操作 的 必要 手段 。 





回 该 接口 中 任何 函数 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错 


ArrayRep 接 口 揭示 了 Array_ TI 是 由 指 回 描述 符 的 指针 表示 的 ， 描 述 
符 结 构 的 各 个 字段 给 出 了 数组 中 元 素 的 数目 、 元 素 的 大 小 和 指 同 数组 内 
存 空间 的 指针 。 





(arrayrep.h 


= 
#ifndef ARRAYREP_INCLUDED 


#define ARRAYREP_INCLUDED 
#define T Array_T 


struct T { 
int length; 
int size; 
char *array; 


}; 


extern void ArrayRep_init(T array, int length, 


int size, void *ary); 


#undef T 


#endif 


图 10-1 给 出 Array_new(100, sizeof int) 返 回 的 包含 100 个 整数 的 数组 的 描述 
符 ， 所 运行 的 机 器 上 整数 为 4 字 节 。 如 果 数 组 没有 元 素 ，array 字 段 为 
NULL。 数 组 描述 符 有 时 也 称 为 信息 失 量 (dope vector) 。 


length 
size 


array 





图 10-1 Array_New(100, sizeof int) 创建 的 Array_T 实 例 


ArrayRep 的 客户 程序 可 以 读 取 描 述 符 的 各 字段 ， 但 不 能 写 这 些 字 
段 ， 否 则 会 造成 未 检查 的 运行 时 错误 。ArrayRep 保 证 ， 如 果 array 是 一 个 
T 实 例 ， 而 是非 负 整 数 且 小 于 array->length， 那 么 








array->array + i*array->size 
是 元 素 i 的 地 址 。 


ArrayRep 还 导出 了 ArrayRep_init， 该 函数 初始 化 array 指 回 的 
Aray T 结 构 实例 的 各 字段 ， 将 其 分 别 设置 为 参数 length、size 和 ary 的 
值 。 提 供 该 函数 后 ， 客 户 程 序 可 以 初始 化 Array_T 实 例 ， 将 其 艇 入 到 其 
他 结构 中 。 如 果 array 是 NULL， 或 size 不 是 正 值 ， 或 length 为 正 值 且 ary 为 
NULL， 或 length 为 零 昌 ary 不 是 NULL， 均 会 造成 已 检查 的 运行 时 错误 山 
。 用 调用 ArrayRep_init 之 外 的 手段 初始 化 T 结 构 ， 则 是 未 检查 的 运行 时 


HTK 0 











10.2 ”实现 


我 们 用 一 个 实现 导出 Array 和 ArrayRep 两 个 接口 : 


(array.c 


Y= 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "array.h" 
#include "arrayrep.h" 


#include "mem.h" 
#define T Array_T 


(functions 


120) 


Array_new 为 一 个 描述 符 及 数组 本 身 〈 如 果 length 为 正 值 ) 分 配 空 
间 ， 并 调用 ArrayRep_init 初 始 化 描述 符 的 各 字段 : 


(functions 


120) = 
T Array_new(int length, int size) { 


T array; 


NEW(array); 
if (length > 0) 
ArrayRep_init(array, length, size, 
CALLOC(length, size)); 
else 
ArrayRep_init(array, length, size, NULL); 


return array; 


ArrayRep_init 是 初始 化 描述 符 的 各 字段 唯一 的 有 效 方法 ， 用 其 他 方式 分 
配 描述 符 的 客户 程序 必须 调用 ArrayRep_init 来 初始 化 描述 符 。 


(functions 


120) += 
void ArrayRep_init(T array, int length, int size, 


void *ary) { 


assert(array); 
assert(ary && length>0 || length==0 && ary==NULL); 
assert(size > 0); 
array->length = length; 
array->size = size; 
if (length > 0) 
array->array = ary; 
else 


array->array = NULL; 


调用 ArrayRep_init 来 初始 化 一 个 I 结 构 实 例 ， 有 助 于 减少 耦合 : 这 些 调 
用 清楚 地 标识 出 了 自行 分 配 描述 符 的 那些 客户 程序 〈 因 而 依赖 于 数组 的 
表示 ) 。 只 要 ArrayRep_init 不 改变 ， 那 么 同 描述 符 添 加 字段 不 会 影响 这 
些 客户 程序 。 例 如 ， 如 果 回 工 结构 添加 一 个 用 于 标识 序列 号 的 字段 ， 且 
该 字段 由 ArrayRep_init 自 动 初始 化 ， 那 么 就 会 发 生 上 述 场 景 。 





Array_free 释 放 数 组 本 身 和 T 结 构 实 例 ， 并 将 其 参数 清 零 巴 : 
(functions 
120) += 


void Array_free(T *array) { 
assert(array && *array); 


FREE((*array)->array); 


FREE(*array); 


Array_free 无 需 检查 (*array)->array 是 否 为 NULL， 因 为 FREE 可 以 处 理 
NULL 指 针 。 


Array_get 从 Array_T 实 例 获取 数组 元 素 ，Array_put| 可 Array_T 实 例 存 
储 数组 元 素 : 


(functions 


120) += 

void *Array_get(T array, int i) { 
assert(array); 
assert(i >= 0 && i < array->length); 


return array->array + i*array->size; 


void *Array_put(T array, int i, void *elem) { 
assert(array); 
assert(i >= 0 && i < array->length); 
assert(elem); 
memcpy(array->array + i*array->size, elem, 
array->size); 


return elem; 


请 注意 ，Array_put 将 返回 其 第 三 个 参数 ， 而 不 是 目标 数组 元 素 的 地 址 。 


Array_length 和 Array_size 分 别 返 回 描述 符 中 名 称 类 似 的 字段 : 





(functions 


120) += 
int Array_length(T array) { 
assert(array); 


return array->length; 


int Array_size(T array) { 
assert(array); 


return array->size; 


ArrayRep 的 客户 程序 可 以 从 摘 述 符 直 接 访 问 这 些 字段 。 


Array_resize 调 用 Mem 接 口 的 RESIZE 来 改变 数组 中 的 元 素 的 数目 ， 
并 相应 地 改变 数组 的 langth 字 段 。 


(functions 


120) += 
void Array_resize(T array, int length) { 
assert(array); 
assert(length >= 0); 
if (length == 0) 
FREE(array->array); 
else if (array->length == 0) 
array->array = ALLOC(length*array->size); 
else 
RESIZE(array->array, length*array->size); 


array->length = length; 


不 同 于 Mem 接 口 的 RESIZE， 在 这 里 ， 新 的 长 度 为 0 是 合法 的 ， 而 在 
这 种 情况 下 数组 将 被 释放 ， 此 后 描述 符 实 际 上 描述 了 一 个 空 的 动态 数 
Is 


Array_copy‘3Array_resizedFAS tH, R E Ce Rilillarray Hy fini FF A 
及 数组 的 部 分 或 全 部 内 容 : 





(functions 


120) += 
T Array_copy(T array, int length) { 
T copy; 


assert(array); 
assert(length >= 0); 
copy = Array_new(length, array->size); 
if (copy->length >= array->length 
&& array->length > 0) 
memcpy(copy->array, array->array, 
array->length*array->size); 
else if (array->length > copy->length 
&& copy->length > 0) 
memcpy(copy->array, array->array, 
copy->Length*array->size); 


return copy; 


10.3 扩展 阅读 


一 些 语言 支持 动态 数组 的 变 体 。 例 如 ，Modula-3[Nelson，1991] 容 
许 在 执行 期 间 创 建 具有 任意 边界 的 数组 ， 但 这 种 数组 不 能 扩展 或 收缩 。 
Icon[Griswold and Griswold，1990] 中 的 列表 与 动态 数组 类 似 ， 可 以 在 两 
并 添加 或 删除 元 系 ， 从 而 进行 扩展 或 收缩 ， 这 与 下 一 章 摘 述 的 序列 非常 
相似 。Icon 还 支持 从 列表 获取 子 列表 ， 或 将 子 列表 蔡 换 为 一 个 不 同 长 度 
的 列表 。 





10.4 习题 


10.1 设计 并 实现 一 个 ADT， 提 供 指 针 的 动态 数组 。 它 应 该 通过 也 
数 提供 对 这 些 数组 元 素 的 “安全 ”访问 ， 这 些 函 数 本 质 上 与 Table 接 口 提供 
的 函数 类 似 。 在 你 的 实现 中 使 用 Array 或 Array_Rep。 





10.2 ”为 动态 矩阵 《〈 即 二 维 数组 ) 设计 一 个 ADT， 并 使 用 Array 实 现 
。 你 可 以 将 设计 推广 到 N 维 数组 吗 ? 


10.3 ”为 稀疏 动态 数组 〈 其 中 大 部 分 元 系 是 零 的 数组 ) 设计 并 实现 
一 个 ADT。 你 的 设计 应 该 接受 一 个 特定 于 数组 的 值 作 为 零 ， 实 现 应 该 只 
存储 那些 不 等 于 零 的 元 系 。 





10.4 将 下 述 函 数 


extern void Array_reshape(T array, int length, 


int size); 


添加 到 Array 接 口 及 其 实现 中 。Array_reshape 会 将 array 中 元 素 的 数目 和 
每 个 元 素 的 大 小 分 别 改 为 langth 和 size。 类 似 Array_resize， 重 整 后 的 数 
组 保留 了 原 数 组 的 前 langth 个 元 素 ， 如 果 length 超 过 原来 的 长 度 ， 超 出 的 
那 部 分 元 素 将 设置 为 0。array 中 的 第 i 个 元 素 ， 将 变 为 重 整 后 的 数组 中 的 
第 i 个 元 素 。 如 有 果 size 小 于 原本 每 个 元 素 的 大 小 ， 则 截断 原来 的 各 个 元 
素 ， 如 果 size 大 于 原来 各 个 元 素 的 大 小 ， 超 出 的 那 部 分 字 节 设 置 为 0。 








[1] 原文 对 length 和 ary 的 限定 有 点 错误 ， 根 据 下 文 的 代码 改正 。 





译 者 注 
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指 将 karray 清 索 ， 由 FREE 宏 自 动 完 成 。 一 一 译 者 注 


第 11 章 “序列 


序列 包含 N 个 值 ， 分 别 关 联 到 整数 索引 0 到 N-1 ANNEE) - 
空 序列 不 包含 任何 值 。 类 似 数组 ， 序 列 中 的 值 可 通过 索引 访问 ， 还 可 以 
从 序列 的 两 问 添 加 或 删除 值 。 序 列 可 根据 需要 目 动 扩展 ， 以 容纳 其 内 
容 。 其 中 的 值 都 是 指针 。 

















序列 是 本 书 中 最 有 用 的 ADT 之 一 。 尽 管 序列 的 规格 相对 简单 ， 但 可 
以 用 作 数 组 、 链 表 、 栈 、 队 列 和 双 端 队列 ， 实 现 这 些 数 据 结构 的 ADT 所 
需 的 设施 通常 都 包含 在 友 列 中 。 序 列 可 以 看 作 前 一 半 描 述 的 动态 数组 的 
更 抽象 版 本 。 序 列 将 短 记 信息 和 调整 大 小 的 相关 细 市 隐藏 到 其 实现 中 。 








11.1 接口 





序列 是 Seq 接 口中 定义 的 不 透明 指针 类 型 的 实例 : 


(seq.h 


= 
#ifndef SEQ INCLUDED 


#define SEQ INCLUDED 


#define T Seq_T 


typedef struct T *T; 


(exported functions 


123) 


#undef T 


#endif 





向 该 接口 中 任何 例 程 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错误 。 


序列 通过 下 列 函 数 创 建 : 


(exported functions 


123) = 
extern T Seq_new(int hint); 


extern T Seq_seq(void *x, ...); 


Seq_new 创 建 并 返回 一 个 空 序列 。hint 是 对 新 序列 将 包含 值 的 最 大 数目 
的 估计 。 如 果 该 数值 是 未 知 的 ， 可 用 0 作为 hint， 以 创建 一 个 较 小 的 序 
列 。 无 论 hint 值 如 何 ， 序 列 都 会 根据 需要 扩展 以 容纳 其 内 容 。 传 递 负 的 
hint 值 ， 是 一 个 已 检查 的 运行 时 错误 。 














Seq_seq 创 建 并 返回 一 个 序列 ， 用 函数 的 非 NULL 指 针 参 数 来 初始 化 
序列 中 的 值 。 参 数列 表 结 束 于 第 一 个 NULL 指 针 参 数 。 因 而 


Seq_T names; 


names = Seq_seq("C", "ML", "C++", "Icon", "AWK", NULL); 


将 创建 一 个 包含 五 个 值 的 序列 ， 并 将 其 赋值 给 names。 参 数列 表 中 的 值 
将 关联 到 索引 0 一 4。Seq_seq 的 参数 列表 的 可 变 部 分 传递 的 指针 假定 为 
void 指针 ， 因 此 在 传递 char 或 void 以 外 的 指针 时 ， 程 序 员 必 须 提 供 转 
换 ， 参 见 7.1 节 。Seq_new 和 Seq_seq 可 能 引发 Mem_Failed 异 常 。 


‘exported functions 


123) += 


extern void Seq_free(T *seq); 


释放 序列 *seq 并 将 *seq 清 零 。 如 果 seq 或 *seq 是 NULL 指 针 ， 则 造成 已 检 
查 的 运行 时 错误 。 


‘exported functions 


123) += 


extern int Seq_length(T seq); 
该 函数 返回 序列 seq 中 的 值 的 数目 。 


N 值 序列 中 的 各 个 值 ， 分 别 关 联 到 索引 0 到 N-1。 这 些 值 通 过 下 列 函 
数 访 问 : 





‘exported functions 


123) += 
extern void *Seq_get(T seq, int i); 


extern void *Seq_put(T seq, int i, void *x); 


Seq_get 返 回 seq 中 的 第 i 个 值 。Seq_put 将 第 i 个 值 改 为 x， 并 返回 先前 的 








值 。ij 等 于 或 大 于 N 将 造成 已 检查 的 运行 时 错误 。Seq_get 和 Seq_put 可 以 
在 常数 时 间 内 访问 第 i 个 值 。 
同 序 列 两 端 添加 值 ， 即 可 扩展 序列 : 


‘exported functions 


123) += 
extern void *Seq_addlo(T seq, void *x); 


extern void *Seq_addhi(T seq, void *x); 


Seq_addlo 将 x 添 加 到 seq 的 低 端 并 返回 x。 添 加 一 个 值 到 序列 的 开始 ， 会 
将 所 有 现存 值 的 索引 都 加 1， 并 将 序列 的 长 度 加 1。Seq_addhi 将 x 添 加 到 
sed 的 高 端 并 返回 x。 添 加 一 个 值 到 序列 的 末尾 ， 会 将 序列 的 长 度 加 1。 
Seq_addlo 和 Seq_addhi 可 能 引发 Mem_Failed 异 常 。 


类 似 地 ， 通 过 从 序列 两 端 删 除 值 可 以 收缩 序列 : 


‘exported functions 


123) += 
extern void *Seq_remlo(T seq); 


extern void *Seq_remhi(T seq); 


Seq_remlo 删 除 并 返回 seq 低 端的 值 。 在 序列 的 起 始 处 删除 值 ， 会 将 余下 


所 有 值 的 索引 都 减 1， 并 将 序列 的 长 度 减 1。Seq_remhi 删 除 并 返回 seq 高 
问 的 值 。 在 序列 末端 删除 值 ， 会 将 序列 的 长 度 减 1。 将 空 序 列传 递 给 
Seq_remlo 或 Seq_remhi， 是 已 检查 的 运行 时 错误 。 





11.2 


本 音 开 头 提 出 ， 序 列 是 动态 数组 的 高 级 抽象 。 因 而 序列 的 表示 包含 
了 一 个 动态 数组 ， 这 不 是 指向 Array_T 的 一 个 指针 ， 而 是 Array_T 结 构 本 
号 的 一 个 实例 ， 其 实现 同时 导入 了 Array 和 ArrayRep 接 口 : 


(seq.c 


ys 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


#include 


实现 








<stdlib.h> 
<stdarg.h> 
<string.h> 
"assert.h" 
"seq. h" 
"array.h" 
"arrayrep.h" 


"mem. h" 


#define T Seq_T 


struct T { 


struct Array_T array; 


int length; 


int head; 


(static functions 


128) 


(functions 


126) 





lengh 字 段 包 含 了 序列 中 的 值 的 数目 ， 而 array 字 段 保 存 了 存储 这 些 值 的 
数组 。 访 数组 总 是 至 少 包 含 length 个 元 素 ， 当 length 小 于 array.length 时 ， 
其 中 一 些 元 又 是 不 使 用 的 。 访 数组 用 作 一 个 环形 缓冲 区 ， 以 容纳 序列 中 
的 值 。 序 列 中 索引 为 0 的 值 保存 在 数组 中 索引 为 head 的 元 素 处 ， 序 列 中 
索引 号 连续 的 值 ， 也 保存 在 数组 的 “连续 ”元 素 中 (注意 :“ 连 续 ” 是 同 余 
意义 上 的 ) 。 即 如 果 序列 中 第 i 个 值 保 存在 数组 元 素 array.length-1 中 ， 那 
么 第 it1 个 值 保存 在 数组 元 素 0 中 。 图 11-1 给 出 了 在 一 个 16 个 元 素 的 数组 
保存 包含 7 个 值 的 序列 的 方法 。 左 侧 的 方 框 是 Seq_T 及 其 内 机 的 
Array_T， 以 淡色 阴影 标明 。 











图 11-1 7 个 值 的 序列 〈 容 
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如 下 文 详 述 ， 在 序列 开始 处 添加 值 时 ， 需 要 将 head 减 1， 而 后 对 数 
组 长 度 求 模 ， 在 序列 开始 处 删除 值 时 ， 需 要 将 head 加 1， 而 后 对 数组 长 
度 求 模 。 序 列 总 是 会 包含 一 个 数组 ， 即 使 空 序列 也 是 如 此 。 

















创建 新 序列 时 ， 会 分 配 一 个 可 以 容纳 hint 个 指针 的 动态 数组 〈 如 果 
hint 为 0， 那 么 可 以 容纳 16 个 指针 ) : 


(functions 


126) = 
T Seq_new(int hint) { 


T seq; 


assert(hint >= 0); 

NEWO(seq); 

if (hint == 0) 
hint = 16; 

ArrayRep_init(&seq->array, hint, sizeof (void *), 
ALLOC(hint*sizeof (void *))); 


return seq; 


使 用 NEW0 将 length 和 head 字 上 段 初始 化 为 0。Seq_seq 调 用 Seq_new 创 建 一 
个 空 序列 ， 然 后 对 参数 列表 中 的 参数 逐一 调用 Seq_addhi， 将 其 奶 加 到 
新 序列 中 : 


(functions 


126) += 
T Seq_seq(void *x, ...) { 
va_list ap; 


T seq = Seq_new(0); 


va_start(ap, x); 

for ( ; x; x = va_arg(ap, void *)) 
Seq_addhi(seq, x); 

va_end(ap); 


return seq; 


} 


Seq_seq 使 用 了 人 处理 可 变 长 度 参数 列表 的 宏 ， 用 法 与 List_list 非 常 相似 ， 
请 参见 7.1 节 。 


可 通过 Array_free 释 放 一 个 序列 ， 这 将 释放 数组 及 其 揪 述 符 : 


(functions 


126) += 

void Seq_free(T *seq) { 
assert(seq && *seq); 
assert((void *)*seq == (void *)&(*seq)->array); 
Array_free((Array_T *)seq); 

} 


对 Array_free 的 调用 之 所 以 能 够 工作 ， 仪 仪 因为 *seq 指 同 的 地 址 等 于 & 
(*seq)->array， 如 代码 中 的 断言 所 示 。 即 Array_T 结 构 必 须 是 Seq_T 结 构 
中 的 第 一 个 ” 字段， 这样 Seq_new 中 NEW0 返 回 的 指针 既 指向 一 个 Seq_T 
实例 ， 同 时 也 指 问 一 个 Array_T 实 例 。 


Seq_length 只 是 返回 序列 的 length 字 上 段 : 


(functions 


126) += 
int Seq_length(T seq) { 
assert(seq); 


return seq->length; 


序列 中 的 第 i 个 值 ， 所 对 应 数组 元 素 的 索引 值 为 head 
array.length。 通 过 类 型 转换 ， 使 之 可 以 直接 索引 数组 : 


+ i) mod 





(seq[i] 127) = 
((void **)seq->array.array) [ 


(seq->head + 1)%seq->array.length | 


Seq_get 只 是 返回 上 述 代码 给 出 的 这 个 数组 元 素 ，Seq_put 将 其 设置 为 x: 


(functions 


126) += 


void *Seq_get(T seq, int i) { 
assert(seq); 
assert(i >= 0 && i < seq->length); 


return (seq[i] 127) ; 


void *Seq_put(T seg, int i, void *x) { 


void *prev; 


assert(seq); 

assert(i >= 0 && i < seq->length); 
prev = (seq[i] 127) ; 

‘seq[i] 127) = x; 


return prev; 


Seq_remlo 和 Seq_remhi 从 一 个 序列 中 删除 值 。 在 这 两 个 函数 中 ， 
Seq_remhi 比 较 人 简单 ， 因 为 它 只 需要 将 length 字 上 段 减 1， 并 返回 由 length 的 
新 值 索 引 的 序列 值 即 可 : 





(functions 


126) += 
void *Seq_remhi(T seq) { 


int 1; 


assert(seq); 
assert(seq->length > 0); 
1 = --seq->length; 


return (seq[i] 127) ; 


Seq remlof wiz ak — HE, LAE 250 E Head x S| ANE, CBN Re a A 
索引 值 0 对 应 的 值 ) ， 接 下 来 需要 将 head 加 1 然后 对 数组 长 度 取 模 ， 并 将 





length 减 1: 


(functions 


126) += 
void *Seq_remlo(T seq) { 
int i = 0; 


void *x; 


assert(seq); 

assert(seq->length > 0); 

x = (seq[i] 127) ; 

seq->head = (seq->head + 1)%seq->array.length; 
--seq->length; 


return x; 


Seq_addlo 和 Seq_addhi 回 序列 添加 值 ， 因 而 必须 处 理 数 组 容量 用 尽 
的 可 能 性 ， 当 length 等 于 array.length 时 ， 就 会 发 生 这 种 情况 。 在 发 生 这 
种 情况 时 ， 这 两 个 函数 都 调用 expand 来 扩大 数组 ，expand 进 而 又 调用 了 
Array_resize 来 完成 其 工作 。 在 这 两 个 图 数 中 ，Seq_addhi 仍 然 是 比较 简 
单 的 那个 ， 因 为 在 检查 是 人 否 需要 扩展 数组 后 ， 该 国 数 只 需 将 新 值 保 存在 
由 索引 值 langth 指 定 的 数组 元 系 处 ， 并 将 length 加 1 即 可 : 








(functions 


126) += 
void *Seq_addhi(T seq, void *x) { 


int 1; 


assert(seq); 

if (seq->length == seq->array.length) 
expand(seq); 

i = seq->length++; 


return (seq[i] 127) = x; 




















Seq_addlo 也 会 检查 是 否 需 要 扩展 数组 ， 但 接 下 来 它 需 要 将 head 减 1 后 对 
数组 长 度 取 模 ， 并 将 x 存储 到 由 head 的 新 值 索 引 的 数组 元 素 处 ， 这 就 是 
序列 中 索引 值 0 对 应 的 值 : 





(functions 


126) += 
void *Seq_addlo(T seq, void *x) { 
int i = 0; 
assert(seq); 
if (seq->length == seq->array.length) 


expand(seq); 


if (--seq->head < 0) 
seq->head = seq->array.length - 1; 
seq->length++; 


return (seq[i] 127) = x; 


另外 ，S$eq_addlo 也 可 以 通过 下 列 代 码 ， 来 对 seq->head 减 1 并 取 模 : 
seq->head = Arith_mod(seq->head - 1, seq->array.length); 
expand 封 装 了 对 Array_resize 的 调用 ， 这 将 倍增 序列 中 数组 的 长 度 : 


(static functions 


128) = 
static void expand(T seq) { 


int n = seq->array.length; 
Array_resize(&seq->array, 2*n); 


if (seq->head > 0) 


(slide tail down 


129) 


该 代码 暗示 ，expand 还 必须 处 理 将 数组 用 作 环 形 绥 冲 区 的 情形 。 除 非 
head 伴 巧 是 0(， 否 则 ， 原 数组 后 半 段 的 那些 元 素 〈 从 head 之 后 ) 必须 移 
动 到 扩展 之 后 的 数组 末端 ， 以 便 把 中 间 的 区 域 腾 出 来 ， 如 图 11-2 所 示 ， 
同时 需要 相应 地 调整 head: 





(slide tail down 


129) = 
{ 
void **old = &((void **)seq->array.array)[seq->head]; 
memcpy(old+n, old, (n - seq->head)*sizeof (void *)); 
seq->head += n; 
} 


old 


old+n 


图 11-2 ”扩展 序列 


11.3 扩展 阅读 


序列 与 Icon[Griswold and Griswold，1990] 中 的 列表 几乎 是 相同 的 ， 
但 相关 操作 的 名 称 则 取 自 DEC 实现 的 Modula-3[Horning 等 人 ，1993] 附 带 
的 库 中 的 Sequence 接 口 。 本 章 中 描述 的 实现 也 与 DEC 的 实现 类 似 。 习 题 
11.1 探 讨 了 Icon 的 实现 。 





11.4 习题 


11.1 Icon 用 块 的 双 链 表 实 现 了 列表 (序列 的 Icon 版 本 ) ， 每 个 块 
可 以 容纳 《假定 ) M 个 值 。 这 种 表示 避免 了 使 用 Array_resize， 因 为 新 的 
块 可 以 在 调用 Seq_addlo 和 Seq_addhi 时 根据 需要 添加 到 列表 的 两 端 。 这 
种 表示 的 不 利之 处 在 于 ， 必 须 授 历 各 个 块 才 能 访问 第 i 个 值 ， 这 兹 费 的 
时 间 正 比 于 M。 使 用 这 种 表示 构建 Seq 接 口 的 一 个 新 实现 ， 并 开发 一 些 
测试 程序 来 测量 其 性 能 。 假 定 访 问 索 引 值 对 应 的 值 时 ， 通 党 都 会 伴随 
着 对 索引 值 i - 1 或 i + 1 对 应 的 值 的 访问 ; 你 能 修改 实现 ， 使 得 这 种 情况 
能 够 在 常数 时 间 内 执行 完成 吗 ? 


11.2 ”为 Seq 接 口 设 计 一 个 实现 ， 不 要 使 用 Array_resize。 例 如 ， 在 
原来 的 N 元 素数 组 用 尽 时 ， 可 以 将 其 转换 为 一 个 指针 数组 ， 每 个 元 素 都 
是 指向 另 一 个 数组 〈 假 定 可 容纳 2N 个 元 素 ) 的 指针 ， 这 样 ， 转 换 后 的 
序列 可 容纳 2N2 个 值 。 如 果 N 为 1024， 转 换 后 的 序列 可 容纳 超过 两 百 万 
个 元 素 ， 每 个 元 素 都 可 以 在 常数 时 间 内 访问 。 这 种 “ 边 向 量 ” 表 示 中 ， 
个 2N 元 素数 组 都 可 以 惰性 分 配 ， 即 仅 当 有 值 存储 到 其 中 时 才 分 配 。 





11.3 ”假定 禁用 Seq_addlo 和 Seq_remlo， 设 计 一 个 渐 增 式 分 配 空间 
的 实现 ， 但 序列 中 的 任何 元 素 都 必须 能 够 在 对 数 时 间 内 访问 。 提 示 : 跳 
表 (skip list， 参 见 [Pugh，1990]) 。 


11.4 ”序列 只 扩展 ， 但 从 不 收缩 。 修 改 Seq_remlo 和 Seq_remhi 的 实 
现 ， 使 之 在 数组 有 超过 半数 空间 空闲 时 ， 对 序列 进行 收缩 ， 即 当 sed- 
>length 变 为 小 于 seq->array.length/2 时 。 在 什么 情况 下 ， 该 修改 是 一 个 坏 
主意 ?提示 : ME GEIR REA) - 


11.5 重新 实现 xref， 使 用 序列 而 不 是 集合 来 容纳 行 号 。 由 于 文件 
顺序 读 取 的 ， 不 需要 对 行 号 排序 ， 因 为 它们 将 按 递增 次 序 出 现在 序列 
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11.6 重 写 Seq_free， 使 其 无 需 再 用 现在 的 断言 。 请 注意 ， 不 能 使 
用 Array_free。 


第 12 曹 M 


环 与 序列 非常 相似 : 它 包 含 N 个 值 ， 分 别 关 联 到 整数 索引 0 到 N- 
1《 当 N 为 正 值 时 ) 。 空 的 环 不 包 合 任何 值 。 其 中 的 值 都 是 指针 。 与 序 
列 中 的 值 类 似 ， 环 中 的 值 也 可 以 用 索引 访问 。 


不 同 于 序列 的 是 ， 值 可 以 添加 到 环 中 任意 位 置 ， 而 环 中 的 任何 值 
都 可 以 被 删除 。 此 外 ， 环 中 的 值 还 可 以 重新 编号 : 将 环 左 “ 旋 ”"， 会 将 每 
个 值 的 索引 减 1 并 对 环 的 长 度 取 模 ， 将 环 右 旋 ， 则 将 各 个 索引 值 加 1 并 对 
环 的 长 度 取 模 。 虽 然 在 环 中 可 以 在 任意 位 置 添 加 /删除 值 ， 但 这 种 灵活 
性 的 代价 是 ， 访 问 第 个 值 不 保证 在 常数 时 间 内 完成 。 


12.1 接口 


顾名思义 ， 环 是 双 链 表 的 抽象 ， 但 Ring ”ADT 只 披露 了 一 点 点 信 
恩 ， 即 环 是 一 个 不 透明 指针 类 型 的 实例 : 


(ring.h 


) = 
#ifndef RING _INCLUDED 


#define RING_INCLUDED 


#define T Ring_T 


typedef struct T *T; 


(exported functions 


131) 
#undef T 


#endif 





向 该 接口 中 任何 例 程 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错误 。 


环 通过 下 列 函数 创建 ， 与 Seq 接 口中 类 似 的 函数 相对 应 : 


‘exported functions 


131) = 
extern T Ring_new (void); 


extern T Ring_ring(void *x, ...); 


Ring_new 创 建 并 返回 一 个 空 环 。Ring_ring 创 建 并 返回 一 个 环 ， 用 函数 的 
非 NULEL 指 针 参 数 来 初始 化 环 中 的 值 。 参 数列 表 结 束 于 第 一 个 NULL 指 
针 参 数 。 因 而 


Ring_T names; 


names = Ring_ring("Lists", "Tables", "Sets", "Sequences", "Rings" 


会 用 给 出 的 五 个 值 创 建 一 个 环 ， 并 将 其 赋值 给 names。 人 参数 列表 中 的 值 
将 关联 到 索引 0 一 4。Ring_ring 的 参数 列表 的 可 变 部 分 传递 的 指针 假定 为 
void 指针 ， 因 此 在 传递 char 或 void 以 外 的 指针 时 ， 程 序 员 必须 提供 转 
换 ， 参 见 7.1 节 。Ring_new 和 Ring_ring 可 能 引发 Mem_Failed 异 氏 


(exported functions 


131) += 


extern void Ring_free (T *ring); 


extern int Ring_length(T ring); 


Ring_free 释 放 *ring 指 定 的 环 并 将 *ring 清 零 。 如 果 ring 或 *ring 是 NULL 指 
针 ， 则 为 已 检查 的 运行 时 错误 。Ring_length 返 回 ring 中 值 的 数目 。 





在 长 度 为 N 的 环 中 ， 各 个 值 分 别 关 联 到 整数 索引 值 0 到 N-1。 这 些 值 
通过 下 列 函 数 访问 : 


(exported functions 


131) += 
extern void *Ring_get(T ring, int i); 


extern void *Ring_put(T ring, int i, void *x); 


Ring_get 返 回 ring 中 的 第 i 个 值 。Ring_put 将 ring 中 第 i 个 值 改 为 x， 并 返回 
原 值 。j 等 于 或 大 于 N 将 造成 已 检查 的 运行 时 错误 。 








通过 下 列 函数 ， 可 以 向 环 中 任何 位 置 添加 值 : 


‘exported functions 


131) += 


extern void *Ring_add(T ring, int pos, void *x); 


Ring_add 将 x 添加 到 ring 中 的 pos 位 置 处 ， 并 返回 x。 在 一 个 N 值 环 中 ， 位 
置 指定 了 值 之 间 ”的 地 点 ， 如 图 12-1 所 示 ， 其 中 给 出 了 一 个 包含 5 个 值 
《整数 0 一 4) 的 环 。 
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图 12-1 包含 5 个 值 的 环 





中 间 一 行 数字 是 索引 ， 上 面 一 行 是 正 位 置 ， 下 面 一 行 是 非 正 位 置 。 
非 正 位 置 指定 了 从 环 末 尾 算 起 的 各 个 地 点 ， 不 需要 了 解 环 的 长 度 。 对 空 
环 来 说 ， 位 置 O 和 1 也 是 有 效 的 。Ring_add 可 以 接受 两 种 形式 的 位 置 。 指 
定 不 存在 的 位 置 (包括 正 位 置 大 于 环 长 度 加 1， 或 负 位 置 绝对 值 大 于 环 
的 长 度 ) ， 是 已 检查 的 运行 时 错误 。 








添加 一 个 新 值 ， 会 将 其 右 侧 所 有 值 的 索引 加 1， 并 将 环 的 长 度 加 1。 
Ring_add 可 能 引发 Mem_Failed 异 常 。 


下 列 各 函数 


(exported functions 


131) += 
extern void *Ring_addlo(T ring, void *x); 


extern void *Ring_addhi(T ring, void *x); 


等 效 于 Seq 接 口中 名 称 相似 的 对 应 函数 。Ring_addlo 等 效 于 
Ring_add(ring， 1, x)， 而 Ring_addhi 等 效 于 Ring_add(ring, 
Ring_addlo 和 Ring_addhi 可 能 引发 Mem_Failed 异 党 。 


下 列 函 数 


(exported functions 


131) += 


extern void *Ring_remove(T ring, int 1); 


0, X)。 


删除 并 返回 ring 中 的 第 i 企 值 。 删 除 值 ， 会 将 其 右 侧 剩 下 的 值 的 索引 都 减 





1， 并 将 环 的 长 度 减 1。i 大 于 或 等 于 ring 的 长 度 ， 是 已 检查 的 运行 时 错 


误 。 
与 Seq 接 口中 名 称 相似 的 函数 类 似 ， 下 列 各 函数 


‘exported functions 


131) += 


extern void *Ring_remlo(T ring); 


extern void *Ring_remhi(T ring); 


删除 并 返回 位 于 ring 的 低 / 高 端的 值 。Ring_remlo 等 效 于 
Ring_remove(ring, 0)， 而 Ring_remhi 等 效 于 Ring_remove(ring， 
Ring_length(ring)-1)。 问 Ring_remlo 或 Ring_remhi 传 递 空 环 ， 是 已 检查 的 
运行 时 错误 。 








“ 环 ” 这 个 名 称 来 自 下 列 函 数 


‘exported functions 


131) += 


extern void Ring_rotate(T ring, int n); 





该 函数 左旋 ?或 右 “ 旋 ring， 将 其 中 的 值 重新 编号 。 如 果 n 为 正 值 ，ring 
回 右 旋转 n 个 值 ( 顺 时 针 〉， 各 个 值 的 索引 加 np 然后 对 ring 的 长 度 取 模 。 
将 一 个 包含 字符 串 A 到 H 的 八 值 坏 ， 向 右 旋转 3 个 位 置 ， 如 图 12-2 所 示 ， 
往 头 指 问 第 一 个 元 系 。 
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图 12-2 ”向 右 旋转 3 个 位 置 的 八 值 环 


如 果 n 为 负 值 ，ring 回 左 转 旋 转 n 个 值 〈 逆 时 针 ) ， 各 个 值 的 索引 减 n 
然后 对 环 的 长 度 取 模 。 如 果 n 模 环 的 长 度 得 0， 那 么 Ring_rotate 没 有 效 
果 。n 的 绝对 值 大 于 ring 的 长 度 ， 是 已 检查 的 运行 时 错误 。 





12.2 ”实现 


本 实现 将 环 表示 为 一 个 包含 两 个 字段 的 结构 : 


(ring.c 


Y= 
#include <stdlib.h> 
#include <stdarg.h> 
#include <string.h> 
#include "assert.h" 
#include "ring.h" 


#include "mem.h" 
#define T Ring_T 


struct T { 
struct node { 
struct node *llink, *rlink; 
void *value; 
} *head; 


int length; 


(functions 


134) 


head 字 段 指向 由 node 结 构 构 成 的 一 个 双 链 表 ，node 结 构 中 的 value 字 段 保 
存 了 环 中 的 值 。head 指 癌 关 联 到 索引 0 的 值 ， 后 续 值 保存 在 通过 rlink 字 
段 链接 的 各 结 点 中 ， 各 结 点 的 llink 字 有 段 指 向 其 前 趋 。 图 12-3 给 出 了 一 个 
六 值 环 的 结构 。 虚 线 从 llink 字 段 发 出 ， 按 逆 时 针 方 向 环行 ， 实 线 从 rlink 
字段 发 出 ， 按 顺 时 针 方 同 环行 。 








图 12-3 包含 6 个 元 素 的 环 


空 环 的 length 字 段 为 0，head 字 段 为 NULL， 即 为 Ring_new 的 返回 值 : 


(functions 


134) = 
T Ring_new(void) { 


T ring; 


NEWO(ring); 
ring->head = NULL; 


return ring; 


Ring ring 首先 创建 一 个 空 环 ， 然 后 调用 Ring_addhi 将 Ring_ring 的 各 个 指 
针 参 数 添加 到 环 的 末尾 ， 直 至 过 到 第 一 个 NULL 指 针 : 


(functions 


134) += 
T Ring_ring(void *x, ...) { 
va_list ap; 


T ring = Ring_new(); 


va_start(ap, x); 

for ( ; x; x = va_arg(ap, void *)) 
Ring_addhi(ring, x); 

va_end(ap); 


return ring; 


释放 环 时 ， 首 先 释 放 各 个 node 结 构 实 例 ， 而 后 释放 Ring_T 结 构 实 例 
( 即 环 的 首部 )。 释 放 结 点 的 次 序 并 不 重要 ， 因 此 Ring_free 只 是 按照 
rlink 指 针 的 方向 释放 各 个 结 反 。 


(functions 


134) += 
void Ring_free(T *ring) { 


struct node *p, *q; 


assert(ring && *ring); 
if ((p = (*ring)->head) != NULL) { 
int n = (*ring)->length; 
for (; n-- > 0; p=q) { 
q = p->rlink; 
FREE(p); 


} 
FREE(*ring); 
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(functions 


134) += 
int Ring_length(T ring) { 
assert(ring); 


return ring->length; 


返回 环 中 的 值 的 数目 。 


Ring_get 和 Ring_put 都 必须 找到 环 中 的 第 i 个 值 。 这 等 效 于 过 有 历 链表 
到 第 i 个 node 结 构 实例 ， 由 下 列 代 码 块 完成 。 


(q — ith node 


136) = 


int n; 
q = ring->head; 
if (i <= ring->length/2) 
for (n = i; n-- > 0; ) 
q = q->rlink; 
else 
for (n = ring->length - i; n-- > 0; ) 


q = q->llink; 


} 





该 代码 循 最 短路 径 找 到 第 i 个 结 点 : 如 果 i 不 大 于 环 长 度 的 一 半 ， 则 代码 
经 由 第 一 个 for 循 环 ， 通 过 rlink 指 针 按 顺 时 针 方向 找到 想 要 的 结 点 。 人 否 

则 ， 代 码 经 由 第 二 个 for 循 环 ， 通 过 llink 指 针 按 逆 时 针 方向 找到 目标 结 

点 。 例 如 ， 在 图 12-3 中 ， 值 0 到 3 可 治 顺 时 针 方向 找到 ， 值 4 和 5 则 需 治 逆 
时 针 方 癌 找到 。 











给 出 该 代码 块 之 后 ，Ring_get 和 Ring_put 两 个 访问 函数 很 容易 实 
现 : 


(functions 


134) += 
void *Ring_get(T ring, int i) { 


struct node *q; 


assert(ring); 
assert(i >= 0 && 1 < ring->length); 


(q — ith node 


136) 


return q->value; 


void *Ring_put(T ring, int i, void *x) { 
struct node *q; 


void *prev; 


assert(ring); 
assert(i >= 0 && i < ring->length); 


(q — ith node 


136) 
prev = q->value; 
q->value = x; 


return prev; 


向 环 添加 值 的 函数 必须 分 配 一 个 结 点 ， 初 始 化 它 ， 并 将 其 插入 到 双 
链表 中 正确 的 位 置 。 这 些 函数 还 必须 处 理 向 空 环 添加 结 点 的 情形 。 
Ring_addhi 是 这 些 函 数 中 最 简单 的 一 个 : 它 将 一 个 新 的 结 点 添加 到 head 
指 回 的 结 点 左 侧 ， 如 图 12-4 所 示 。 阴 影 标 记 出 了 新 结 点 ， 右 侧 图 中 的 加 
粗 线 表 明了 需要 改变 的 链接 。 以 下 是 代码 : 


(functions 


134) += 
void *Ring_addhi(T ring, void *x) 


struct node *p, *q; 


assert(ring); 
NEW(p); 
if ((q = ring->head) != NULL) 


(insert 


p to the left of 


q 137) 
else 


(make 


p ring's only value 


137) 


ring->length++; 


return p->value = x; 


向 空 环 添加 一 个 值 很 容易 : 将 ring->head 指 向 新 的 结 点 ， 该 结 点 的 链接 
指 问 结 点 本 里 。 


(make 


p ring's only value 


137) = 


ring->head = p->llink = p->rlink = p; 


如 图 12-4 所 示 ，Ring_addhi 将 q 指 向 坏 中 第 一 个 结 点 ， 并 将 新 结 扣 插入 到 
其 左 侧 。 这 个 插入 操作 涉及 初始 化 新 结 皮 的 链接 ， 以 及 重 定向 q 的 llink 
和 gq 的 前 趋 结 点 的 rlink: 


(insert 


p to the left of 


q 137) = 


{ 
p->llink = q->llink; 
q->llink->rlink = p; 
p->rlink = q; 
q->llink = p; 

} 


q q 
head p head 
| 
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图 12-4 在 head 的 左 侧 插入 一 个 新 结 点 





图 12-5 的 系列 图 中 第 二 到 第 五 幅 图 ， 分 别 说 明了 这 四 个 语句 各 自 的 效 
果 。 在 每 一 步 ， 加 重 的 弧 线 表示 新 的 链接 。 当 g 指 向 双 链 表 中 唯一 的 结 
点 时 ， 重 新 绘制 此 系列 图 是 很 有 神 益 的 ， 留 给 读者 完成 。 





Ring_addlo 儿 了 乎 同样 容易 ， 但 新 添加 的 结 点 会 变 为 环 中 第 一 个 BE 
点 。 要 完成 这 个 转换 ， 可 以 首先 调用 Ring_addhi， 然 后 将 环 右 旋 一 个 位 
置 《即将 head 设 置 为 其 前 趋 ) : 





(functions 


134) += 

void *Ring_addlo(T ring, void *x) { 
assert(ring); 
Ring_addhi(ring, x); 
ring->head = ring->head->llink; 


return x; 


Ring_addze IA] AUSTIN A = ea BP ie SARE, ANE ie BEAD EE 
FHA AE FH A PS ELT © TR EY it 
添加 值 的 特例 可 通过 Ring_addlo 和 Ring_addhi 处 理 〈 空 环 的 处 理 亦 涵盖 
TH) ， 首 先 通过 位 置 值得 到 该 位 置 右 侧 ”的 值 的 索引 ， 然 后 将 新 结 
点 添加 到 其 左 侧 ， 如 上 文 的 代码 块 所 述 。 
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图 12-5 ”向 q 的 左 侧 插入 一 个 新 结 点 














(functions 


134) += 
void *Ring_add(T ring, int pos, void *x) { 
assert(ring); 
assert(pos >= -ring->length && pos<=ring->length+1) ; 
if (pos == 1 || pos == -ring->length) 
return Ring _addlo(ring, x); 
else if (pos == || pos == ring->length + 1) 
return Ring_addhi(ring, x); 


else { 
struct node *p, *q; 


int i = pos < 0 ? pos + ring->length : pos - 1; 


(q — ith node 


136) 
NEW(p); 


(insert 


p to the left of 


q 137) 
ring->length++; 


return p->value = x; 


} 


前 两 个 让 语句 涵盖 了 对 环 两 端的 位 置 的 处 理 。 对 i 的 初始 化 ， 处 理 了 对 应 
于 索引 1 到 ring->length-1 的 位 置 。 





删除 值 的 三 个 函数 比 添 加 值 的 函数 要 容易 ， 因 为 边界 条 件 更 少 一 
些 ， 唯 一 的 边界 条 件 是 删除 环 中 最 后 一 个 值 时 。Ring_remove 是 三 个 函 
数 中 最 通用 的 ， 它 找到 第 i 个 结 点 ， 并 将 其 从 双 链 表 中 删除 : 








(functions 


134) += 
void *Ring_remove(T ring, int i) { 
void *x; 


struct node *q; 


assert(ring); 
assert(ring->length > 0); 
assert(i >= 0 && i < ring->length); 


(q — ith node 


136) 
if (i == 0) 
ring->head = ring->head->rlink; 
x = q->value; 


(delete node 


q 139) 


return x; 


如 果 沁 0，Ring_remove 会 删除 第 一 个 结 点 ， 因 而 必须 将 head 重 定向 到 下 
一 个 结 点 


=H o 
添加 一 个 结 点 涉及 四 次 指针 赋值 ， 删 除 一 个 结 点 只 需要 两 次 : 


(delete node 


q 139) = 

q->llink->rlink = q->rlink; 
q->rlink->llink = q->llink; 
FREE(q); 


if (--ring->length == 0) 


ring->head = NULL; 


12-6 FN 38 — AB = A, SLA SIZ RESO APM A A 
EE, AS BI Ue A HE He VA HM ZR Se AN. <delete node q 194> 中 的 第 三 
个 语句 会 释放 结 点 ， 最 后 两 个 语句 将 ring 的 length 字 段 减 1， 如 果 刚 好 删 
除了 环 中 最 后 一 个 结 点 ， 则 将 head 指 针 置 为 NULL。 同 样 ， 对 于 从 单 结 
点 和 两 结 点 环 中 删除 结 点 的 情形 来 说 ， 重 新 绘制 该 序列 图 也 是 有 神 益 
的 。 


Ring_remhi 的 实现 类 似 ， 但 更 容易 查找 要 删除 的 结 点 : 





(functions 


134) += 
void *Ring_remhi(T ring) { 
void *x; 


struct node *q; 


assert(ring); 
assert(ring->length > 0); 
q = ring->head->1llink; 

x = q->value; 


(delete node 


q 139) 


return x; 








如 上 所 示 ，Ring_addlo 的 实现 是 通过 调用 Ring_addhi 并 将 ring 的 head 
字段 指向 其 前 趋 。 可 以 用 “对 称 ”( 指 步 又 相反 ， 如 同 镜像 对 称 〉 的 惯 
法 来 实现 Ring_remlo: 将 ring 的 head 指 癌 其 后 继 ， 然 后 调用 Ring_remhi 妈 ] 
可 。 


(functions 


134) += 

void *Ring_remlo(T ring) { 
assert(ring); 
assert(ring->length > 0); 
ring->head = ring->head->rlink; 


return Ring_remhi(ring); 


最 后 一 个 操作 是 对 环 进行 旋转 。 如 果 n 是 正 值 ， 那 么 将 顺 时 针 方 向 
旋转 一 个 N 值 环 ， 这 意味 着 索引 为 n 模 N 的 值 将 成 为 新 的 head。 如 果 n 是 
负 值 ， 那 么 环 将 逆 时 针 旋 转 ， 这 意味 着 head 将 移动 到 索引 为 n + N 的 值 。 


(functions 


134) += 
void Ring_rotate(T ring, int n) { 
struct node *q; 


int 1; 


assert(ring); 
assert(n >= -ring->length && n <= ring->length); 
if (n >= 0) 
i = n%ring->length; 
else 
i = n + ring->length; 


(q — ith node 


136) 


ring->head = q; 


} 





这 里 使 用 代码 块 <q -ith node 136>， 确 保 了 旋转 沿 最 短路 径 进行 。 


12.3 扩展 阅读 


[Knuth，1973a] 和 [Sedgewick，1990] 两 书 都 详细 阐述 了 操作 双 链 表 
的 算法 。 

Icon 中 提供 的 一 些 向 列表 删除 和 添加 值 的 操作 ， 与 Ring 提 供 的 操作 
类 似 。 习 题 12.4 探 讨 了 Icon 的 实现 。Ring_add 中 指定 位 置 的 方案 ， 即 取 
自 Icon 。 


12.4 习题 


12.1 重 写 Ring_free 中 的 循环 ， 消 除 对 变量 n 的 使 用 ， 使 用 链表 结 
构 确定 循环 何 时 结 


12.2 仔细 考察 Ring_rotate 的 实现 。 解 释 第 二 个 让 语句 的 后 项 为 何必 
须 写作 i=n+ring->length。 


12.3 对 Ring get(ring, i) 的 调用 通常 会 后 接 男 一 个 调用 ， 如 
Ring_get(ring，i+1)。 修 改 环 的 实现 ， 使 得 环 能 够 记录 最 近 访 问 的 索引 及 
对 应 结 点 ， 并 在 可 能 的 情况 下 使 用 该 信息 ， 以 避免 <q ith node 136> 中 
的 循环 。 在 添加 或 删除 值 时 ， 不 要 忘记 更 新 该 信息 。 对 此 设计 一 个 测试 
程序 ， 测 量 此 项 改进 带 来 的 好 处 。 


12.4 Icon 实 现 了 列表 ， 它 类 似 于 环 ， 是 数组 的 双 和 链表 ， 每 个 数组 
包含 N 个 值 。 这 些 数组 用 作 环 形 缓 冲 区 ， 关 似 Seq 实 现 中 的 数组 。 碍 找 
第 i 个 值 ， 通 常 需要 在 列表 中 遍历 i/N 个 数组 ， 然 后 计算 第 i 个 值 在 目标 数 
组 中 的 索引 。 添 加 一 个 值 ， 或 者 将 其 添加 到 茶 个 现存 数组 中 的 空 槽 位 ， 
或 者 需要 添加 一 个 新 数组 。 删 除 一 个 值 ， 将 使 数组 中 空 出 一 个 槽 位 ， 如 
果 该 值 是 数组 中 最 后 一 个 值 ， 那 么 将 数组 从 列表 中 删除 并 释放 。 该 表示 
比 本 革 搬 述 的 实现 更 为 复杂 ， 但 对 大 的 环 来 说 ， 其 性 能 更 好 。 使 用 该 表 
示 重 新 实现 环 ， 并 测量 这 两 个 实现 的 性 能 。 需 要 多 大 的 环 ， 才 能 检测 到 
改进 市 来 的 好 处 ? 








第 13 章 “位 向 量 


第 9 章 中 描述 的 集合 可 以 包含 任意 元 素 ， 因 为 这 些 元 系 只 能 通过 客 
户 程序 提供 的 函数 操作 。 与 此 相 比 ， 整 数 的 集合 灵活 性 较 少 ， 但 使 用 很 
频繁 ， 我 们 有 理由 将 其 实现 为 一 个 独立 的 ADT。Bit 接 口 导 出 了 操作 位 
向 量 的 函数 ， 位 向 量 可 用 于 表示 从 0 到 N-1 的 整数 集合 。 例 如 ，256 位 的 
位 向 量 可 用 于 高 效 地 表示 字符 的 集合 。 








Bit 接 口 提供 了 Set 接 口中 大 部 分 的 集合 操作 函数 ， 以 及 少量 特定 于 
位 回 量 的 函数 。 不 同 于 Set 接 口 提供 的 集合 ， 由 位 辐 量 表示 的 集合 有 一 
个 定义 明确 的 全 集 ， 即 从 0 到 N-1 的 所 有 整数 构成 的 集合 。 因 而 ，Bit 接 
口 可 以 提供 Set 接 口 所 不 能 提供 的 函数 ， 如 集合 的 补 集 。 


13.1 接口 


“位 同 量 ” 这 个 名 称 揭示 了 这 种 整数 集合 的 表示 实质 上 是 比特 位 的 序 
列 。 尽 管 如 此 ，Bit 接 口 仍然 只 导出 了 一 个 不 透明 类 型 ， 来 表示 位 回 


(bit.h 


= 
#ifndef BIT_INCLUDED 


#define BIT_INCLUDED 


#define T Bit_T 
typedef struct T *T; 


(exported functions 


142) 


#undef T 


#endif 


— NCFL Be IR BE eT EY, FH Bit_newfE EEA IA) Se NY E : 


(exported functions 


142) = 
extern T Bit_new (int length); 
extern int Bit_length(T set); 


extern int Bit_count (T set); 


Bit_new 创 建 一 个 包含 length 个 比特 位 的 新 问 量 ， 并 将 所 有 比特 位 都 设置 
为 0。 该 同 量 表示 了 从 0 到 length-1 的 所 有 整数 (包含 0O 和 length-1) 。 传 递 
负 的 length 值 ， 是 一 个 已 检查 的 运行 时 错误 。Bit _ new 可 能 引发 


Mem failed 异 常 。 








Bit_length 返 回 set 中 的 比特 位 数 ，Bit_count 返 回 set 中 1 的 数 日 ( 即 置 
位 的 比特 位 数 ) 。 


向 该 接口 中 任何 例 程 (Bit_union、Bit inter、Bit_minus 和 Bit_diff 除 
外 ) 传递 的 T 值 为 NULL， 是 已 检查 的 运行 时 错误 。 





(exported functions 


142) += 


extern void Bit_free(T *set); 





Bit_free 释 放 *set 并 将 *set 清 零 。set 或 *set 是 NULL， 则 造成 已 检查 的 运行 


时 错误 。 


集合 中 的 各 个 元 素 《〈“ 即 回 量 中 的 各 个 比特 位 ) ， 下 列 函 数 操 
作 : 


‘exported functions 


142) += 
extern int Bit_get(T set, int n); 


extern int Bit_put(T set, int n, int bit); 


Bit_get 返 回 比 特 位 n， 因 而 测试 了 pn 是 否 在 set 中 ， 即 如 果 set 中 的 比特 位 n 
是 1，Bit_get 将 返回 1， 否 则 返回 0。Bit_put 将 集合 中 的 比特 位 n 设 置 为 
bit， 并 返回 该 比特 位 的 原 值 。 如 果 n 为 负 值 或 大 于 等 于 set 的 长 度 ， 或 bit 
是 0 和 1 以 外 的 值 ， 都 会 造成 已 检查 的 运行 时 错误 。 














上 述 函 数 操作 集合 中 的 单个 比特 位 ， 而 以 下 的 函数 


‘exported functions 


142) += 
extern void Bit_clear(T set, int lo, int hi); 
extern void Bit set (T set, int lo, int hi); 


extern void Bit not (T set, int lo, int hi); 


将 操作 集合 中 连续 的 比特 序列 ， 即 集合 的 子 集 。Bit_clear 将 lo 到 hi 的 所 

有 比特 位 清 零 (包含 比特 位 lo 和 hi)〉，Bit_set 将 lo 到 hi 的 所 有 比特 位 置 位 
( 含 比 特 位 lo 和 hi〉， 而 Bit_not 将 lo 到 hi 的 所 有 比特 位 取 反 。 如 果 lo 大 于 
hi， 或 lomi 为 负 值 ， 或 1omhi 大 于 等 于 set 的 长 度 ， 都 会 造成 已 检查 的 运行 
时 错误 。 








(exported functions 


142) += 
extern int Bit_lt (T s, T t); 
extern int Bit_eq (T s, T t); 


extern int Bit_leq(T s, T t); 








如 果 sCt，Bit lt 返回 1， 否 则 返回 0。 如 果 sCt，s 是 t 的 一 个 真子 集 
(proper subset) 。 如 果 s=t，Bit eq 返回 1， 人 否则 返回 0。 如 果 sSt， 
Bit leq 返回 1， 人 否则 返回 0。 对 这 三 个 函数 来 说 ， 如 果 s 和 t{t 的 长 度 不 同 ， 
则 是 已 检查 的 运行 时 错误 。 











下 列 函 数 


‘exported functions 


142) += 


extern void Bit_map(T set, 


void apply(int n, int bit, void *cl), void *cl); 


从 比特 位 0 开始 ， 对 set 中 的 每 一 个 比特 位 调用 apply。n 是 比特 位 的 编 

号 ， 介 于 0 和 集合 的 长 度 减 1 之 间 ，bit 是 比特 位 n 的 值 ，cl 由 客户 程序 提 

供 。apply 不 同 于 传递 到 Table_map 的 函数 ， 它 可 以 改变 set。 如 果 对 比特 
位 n 调 用 apply 时 ，apply 改 变 了 比特 位 K， 其 中 k>n， 那 么 这 一 次 修改 在 此 
后 (对 比特 位 k) 调用 apply 时 将 是 可 见 的 ， 因 为 Bit map 必须 束 地 处 理 集 
合 中 的 各 个 比特 位 。 如 果 要 禁用 这 种 语义 ，Bit_map 需 要 在 开始 处 理 比 

特 位 之 前 ， 将 位 同 量 复制 一 份 。 


下 列 函 数 实 现 了 4 个 标准 的 集合 操作 ， 这 些 操作 已 经 在 第 9 章 中 描述 
过 。 每 个 函数 部 返 回 一 个 新 的 集合 ， 作 为 操作 的 结果 。 


‘exported functions 


142) += 

extern T Bit_union(T s, T t); 
extern T Bit_inter(T s, T t); 
extern T Bit_minus(T s, T t); 


extern T Bit_diff (T s, T t); 





Bit_union 返 回 s 和 t 的 并 集 ， 记 作 s+t， 实 际 上 是 两 个 位 向 量 的 可 兼容 的 按 
位 或 。Bit_inter 返 回 s 和 t 的 交集 s*t， 它 是 两 个 位 问 量 的 按 位 与 。 
Bit_minus 返 回 s 和 t 的 差 集 s-t， 是 t 的 补 集 和 s 按 位 与 。Bit_diff 返 回 s 和 t 的 
对 称 差 s/t， 它 是 两 个 位 问 量 的 按 位 异 或 。 














该 4 个 函数 的 参数 s 或 t 可 以 为 NULL 指 针 ， 但 不 能 同时 为 NULL， 
NULL 指 针 可 以 解释 为 空 集 。 因 而 Bit_union(s,， NULL) 返 回 s 的 一 个 副 
本 。 这 些 函 数 总 是 返回 非 NULEL 的 T 值 。 如 果 s 和 t 同 时 为 NULL， 或 s 和 1{ 
的 长 度 不 同 ， 均 为 已 检查 的 运行 时 错误 。 这 些 函 数 可 能 引发 Mem_Failed 


已 A 
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13.2 


Bit Tæ — AH RT aa SE TST 


实现 











FS) TS SE PH [a] at AS 


(bit.c 


)= 
#include 
#include 
#include 
#include 


#include 


<stdarg. 


<string 
"assert 
"bit.h" 


"mem.h" 


#define T Bit T 


struct T 


{ 


int length; 


unsigned char *bytes; 


unsigned long *words; 


}; 


(macros 


h> 
,h> 
.h" 





该 结构 实例 包含 了 位 回 量 


145) 


(static data 


148) 


(static functions 


152) 


(functions 


145) 


length 字 段 给 出 了 回 量 中 比特 位 的 数目 ， 而 bytes 指 同一 个 至 少 包含 
<length / 8> 个 字 贡 的 内 存 区 。 这 些 比特 位 通过 索引 bytes 来 访问 : 字 节 
bytes[ 中 包含 了 从 比特 位 8"i 到 8.i+7， 其 中 比特 位 8"i 是 该 字 市 的 最 低 
位 。 请 注意 ， 该 约定 只 使 用 了 每 个 字符 的 8 个 比特 位 ， 在 字符 位 览 大 于 8 
的 机 右上 ， 多 余 的 比特 位 不 会 使 用 。 








如 休 所 有 访问 各 个 比特 位 的 操作 都 使 用 相同 的 约定 〈“ 束 像 Bit_get 那 


样 )， 那 么 也 可 以 将 位 疝 量 的 各 个 比特 位 存储 到 其 他 类 型 (比如 
unsigned long) 的 数组 中 。Bit 使 用 字符 数组 ， 这 使 得 可 以 对 Bit_count、 
Bit_set、Bit_clear 和 Bit_not 使 用 表 驱 动 的 实现 凸 。 


一 些 操作 “〈 如 Bit union) 同时 操作 所 有 比特 位 。 对 这 些 操作 ， 访 问 
位 癌 量 时 ， 可 通过 words 每 次 访问 BPW 个 比特 位 ， 其 中 


(macros 


145) = 


#define BPW (8*sizeof (unsigned long) ) 


words 必 须 指向 整数 个 unsigned ”long，nwords 计 算 了 包含 len 个 比特 位 的 
位 向 量 所 需要 的 unsigned longhi% H A : 


(macros 


145) += 


#define nwords(len 


) ((((ten 


) + BPW - 1)&(~(BPW-1) ))/BPW) 


Bit_new 在 分 配 新 的 T 实 例 时 使 用 nwords: 


(functions 


145) = 
T Bit_new(int length) { 


T set; 


assert(length >= 0); 
NEW(set); 
if (length > 0) 
set->words = CALLOC(nwords(length), 
sizeof (unsigned long)); 
else 
set->words = NULL; 
set->bytes = (unsigned char *)set->words; 
set->length = length; 


return set; 


Bit new 最 多 可 能 分 配 sizeof(unsigned long)-1 个 多 余 的 字 节 。 这 些 多 余 的 
字 贡 必须 清 零 ， 才 能 使 下 述 函 数 正 常 工作 。 





Bit_free 释 放 集合 并 将 其 参数 清 零 ，Bit_length 返 回 length 字 段 。 


(functions 


145) += 

void Bit_free(T *set) { 
assert(set && *set); 
FREE((*set)->words); 


FREE(*set); 


int Bit_length(T set) { 
assert(set); 


return set->length; 


13.2.1 ”成员 操作 


Bit_count 返 回 集合 中 成 员 的 数目 ， 即 集合 中 值 为 的 比特 位 的 数 
目 。 完 全 可 以 简单 地 遍历 集合 并 测试 每 一 个 比特 位 ， 但 使 用 每 个 字 节 中 
两 个 四 比特 位 的 " 半 字 节 " 来 索引 一 个 表 同样 很 容易 〈 四 比特 位 的 半 字 节 
值 共有 16 种 可 能 性 ， 因 此 该 表 只 需要 16 个 项 ， 分 别 给 出 各 个 半 字 节 值 中 
置 位 的 比特 位 数目 ) 。 





(functions 


145) += 

int Bit_count(T set) { 
int length = 0, n; 
static char count[] = { 


0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4 }; 


assert(set); 

for (n = nbytes(set->length); --n >= 0; ) { 
unsigned char c = set->bytes[n]; 
length += count[c&OxF] + count[c>>4]; 


} 


return length; 


(macros 


145) += 


#define nbytes(len 


) ((((ten 


) + 8 - 1)&(~(8-1)))78) 


nbytes 宏 计算 了 <len /8>， 它 用 于 按 比特 遍历 位 向 量 的 操作 中 。 在 上 述 
函数 中 ， 循 环 的 每 次 选 代 计 算 集 合 的 字 节 n 中 置 位 的 比特 位 数目 《将 两 
个 半 字 节 中 置 位 的 比特 位 数目 相 加 至 length) 。 该 循环 可 能 访问 一 些 多 
余 的 比特 位 ， 但 因为 Bit_new 将 多 余 的 比特 位 初始 化 为 0， 因 而 不 会 破坏 
LR 





位 向 量 中 的 比特 位 n， 是 字 节 mn/8 中 的 比特 位 n%8， 在 一 个 字 节 中 ， 
比特 位 的 编号 从 0 开始 ， 从 右 同 左 递增 ， 即 最 低位 是 比特 位 0， 最 高 位 是 
比特 位 7。Bit_get 返 回 比 特 位 n 的 值 时 ， 首 先 将 字 节 m/8 右 移 n%8 位 ， 然 后 
只 返回 最 右边 的 比特 位 : 








(functions 


145) += 

int Bit_get(T set, int n) { 
assert(set); 
assert(0 <= n && n < set->length); 


return (bit 


set 147) ; 
} 


(bit 


set 147) = 


((set->bytes[n/8]>>(n%8) )&1) 


Bit_put 使 用 类 似 的 惯用 法 来 设置 比特 位 n 的 值 ， 在 bit 为 1 时 ，Bit_put 将 1 
左 移 n%8 位 ， 将 其 结果 按 位 或 到 字 节 n/8 中 。 





(functions 


145) += 


int Bit_put(T set, int n, int bit) { 


int prev; 


assert(set); 
assert(bit == 0 || bit == 1); 
assert(0 <= n && n < set->length); 


prev = (bit 


set 147) ; 
if (bit == 1) 
set->bytes[n/8] |=  1<<(n%8); 
else 
set->bytes[n/8] &= ~(1<<(n%8)); 


return prev; 


如 上 述 代 码 所 示 ， 在 bit 为 0 时 ，Bit_put 需 要 将 比特 位 n 清 零 ， 首 先 构造 一 
个 掩 码 ， 其 中 的 比特 位 n%8 为 0， 其 余 比 特 位 均 为 1， 然 后 将 该 掩 码 按 位 
与 到 字 节 n/8 中 。 








Bit_set、Bit_clear 和 Bit_not 都 使 用 了 类 似 的 技术 ， 分 别 将 集合 中 某 
个 范围 内 的 比特 位 置 位 、 清 零 、 取 反 ， 但 这 些 函 数 更 为 复杂 ， 因 为 它们 





必须 处 理 比特 位 范围 跨越 字 节 边界 的 情形 。 例 如 ， 如 果 set 有 60 个 比特 
位 ， 


Bit_set(set, 3, 54) 


将 第 一 个 字 市 中 的 比特 位 3 到 7 置 位 ， 将 字 节 1 到 5 中 的 全 部 比特 位 置 位 ， 
将 字 节 6 中 的 比特 位 0 到 6 置 位 ， 其 中 字 节 编号 从 0 开始 。 在 图 13-1 中 ， 这 
3 个 区 域 从 右 到 左 排列 ， 分 别 对 应 3 种 深浅 不 同 的 阴影 区 域 。 


xX 





7 6 5 4 3 2 1 0 
| | ee | 


图 13-1 3 种 深浅 不 同 的 阴影 区 域 








字 节 7 中 的 最 高 4 位 不 使 用 ， 因 而 总 是 0。Bit_set 的 代码 反映 出 了 图 
中 的 3 个 区 域 : 


(functions 


145) += 
void Bit_set(T set, int lo, int hi) { 


(check 


set, lo, and 


hi 148) 
if (10/8 < hi/8) { 


(set the most significant bits in byte 


lo/8 148) 


(set all the bits in bytes 


1o/8+1..hi/8-1 148) 


(set the least significant bits in byte 


hi/8 148) 
} else 


(set bits 


10%8..hi%8 in byte 


10/8 149) 
I 


(check 


set, lo, and 


hi 148) = 
assert(set); 
assert(0 <= lo && hi < set->length); 


assert(lo <= hi); 


当 lo 和 hi 指 的 是 不 同 字 节 中 的 比特 位 时 ， 字 节 1lo/8 中 被 置 位 的 比特 位 数目 
取决 于 lo%8: 如 果 1o%8 为 0， 那 么 该 字 节 中 所 有 比特 位 都 被 置 位 ， 如 果 
它 是 7， 那 么 只 有 最 高 位 置 位 。 这 些 以 及 其 他 可 能 的 情况 由 掩 码 表示 ， 
存储 在 一 个 表 中 ， 通 过 1lo%8 索 引 











(static data 


148) = 


unsigned char msbmask[] = { 
OxFF, QOxFE, OxFC, OxF8, 
OxFO, OXEO, OxCO, 0x80 
}; 





将 msbmask[lo%8] 按 位 或 到 字 节 lo/8 中 ， 即 可 将 适当 的 比特 位 置 位: 


(set the most significant bits in byte 


lo/8 148) = 


set->bytes[lo/8] |= msbmask[10%8]; 


在 第 二 个 区 域 中 ， 每 个 字 节 中 所 有 的 比特 位 都 将 被 设置 为 1: 


(set all the bits 


in bytes 10/8+1..hi/8-1 148) = 


{ 
int 1; 
for (i = 10/8+1; i < hi/8; i++) 
set->bytes[i] = OxFF; 
} 


hi9%8 确 定 了 字 节 hi/8 中 哪些 比特 位 被 置 位 : 如 果 hi%8 为 0， 仅 最 低位 置 





位 ， 如 果 它 是 7， 那 么 该 字 节 中 所 有 比特 位 均 置 位 。 同 样 ， 可 以 将 hi%8 
用 作 索 引 ， 从 一 个 表 中 选择 适当 的 掩 码 ， 按 位 或 到 字 节 hi/8 中 : 








‘set the least significant bits in byte 


hi/8 148) = 


set->bytes[hi/8] |= lsbmask[hi%8]; 


(static data 


148) += 

unsigned char lsbmask[] = { 
0x01, 0x03, 0x07, OXOF, 
Ox1F, Ox3F, QOx7F, OXFF 

}; 


当 lo 和 hi 指 辣 同一 字 节 中 的 两 个 比特 位 时 ， 可 以 将 msbmask[lo0%8] 和 
lsbmask[hi%8] 给 出 的 掩 码 合并 起 来 确定 一 个 掩 码 ， 来 指定 需要 置 位 的 比 
特 位 。 例 如 ， 





Bit_set(set, 9, 13) 





将 集合 中 第 二 个 字 市 的 比特 位 0 到 5 置 位 ， 这 可 以 通过 与 掩 码 0x3E 按 位 或 
来 完成 ， 该 掩 码 是 msbmask[1] 和 ]sbmask[5] 按 位 与 的 结果 。 一 般 来 说 ， 





这 两 个 掩 码 重合 的 部 分 ， 刚 好 对 应 于 那些 应 该 置 位 的 比特 位 ， 因 此 处 理 
该 情形 的 代码 是 : 


(set bits 


10%8..hi%8 in byte 


lo/8 149) = 


set->bytes[lo/8] |= (‘mask for bits 


10%8..hi%8 149) ; 


(mask for bits 


10%8..hi%8 149) = 
(msbmask[10%8 ]&lsbmask[h1i%8 ] ) 


Bit_clear 和 Bit_ not 类似 于 Bit set， 都 以 类 似 的 方式 使 用 了 msbmask 
和 ]sbmask。 对 Bit_clear 来 说 ， 将 msbmask 和 ]sbmask 取 反 得 到 相应 的 掩 


码 ， 分 别 按 位 与 到 lo/08 和 hi/8 字 节 中 即 可 。 


(functions 


145) += 
void Bit_clear(T set, int lo, int hi) { 


(check 


set, lo, and 


hi 148) 

if (lo/8 < hi/8) { 
int 1; 
set->bytes[lo/8] &= ~msbmask[10%8]; 
for (i = 10/8+1; i < hi/8; i++) 

set->bytes[i] = 0; 

set->bytes[hi/8] &= ~lsbmask[h1i%8]; 

} else 


set->bytes[lo/8] &= ~ (mask for bits 


10%8. .hi%8 149) ; 
} 





Bit_not 必 须 将 lo 到 hi 各 比特 位 取 反 ， 这 通过 与 适当 掩 码 的 按 位 腊 或 来 完 
成 : 


(functions 


145) += 
void Bit_not(T set, int lo, int hi) { 
(check 


set, lo, and 


hi 148) 
if (lo/8 < hi/8) { 
int 1; 
set->bytes[lo/8] ^= msbmask[10%8]; 
for (i = 10/8+1; i < hi/8; i++) 


set->bytes[i] ^= OxFF; 


set->bytes[hi/8] ^= lsbmask[hi%8]; 
} else 


set->bytes[lo/8] ^= (mask for bits 


10%8..hi%8 149) ; 
I 


Bit_map 对 一 个 集合 中 的 每 个 比特 位 调用 apply。 它 将 比特 位 编写、 比特 
值 及 一 个 由 客户 程序 提供 的 指针 传递 给 apply。 


(functions 


145) += 
void Bit_map(T set, 
void apply(int n, int bit, void *cl), void *cl) { 


int n; 


assert(set); 
for (n = 0; n < set->length; n++) 


apply(n, (‘bit 


set 147) , cl); 
} 








如 上 述 代码 所 示 ，Bit_map 所 采用 的 比特 位 编号 方式 ， 与 Bit_get 和 其 他 
将 比特 位 编号 作为 参数 的 Bit 函 数 所 上 暗含 的 比特 位 编写 方式 是 相同 的 ， 
Bit map 正 是 这 样 将 各 个 比特 位 逐一 传递 给 apply。 每 过 8 个 比特 位 n/8 的 
值 改 变 一 次 ， 因 此 这 很 容易 诱导 我 们 将 set->bytes[n/8] 的 值 复 制 到 一 个 临 
时 变量 ， 然 后 通过 移 位 和 掩 码 分 别 获 取 各 个 比特 位 。 但 这 种 改进 违背 了 
接口 的 语义 : 如 果 apply 改 变 了 一 个 它 疯 未 “看 到 ”的 比特 位 ， 那 么 在 对 
apply 的 后 续 调用 中 ，apply 应 该 可 以 看 到 该 比特 位 的 新 值 。 











13.2.2 ”比较 





Bit_eq 比 较 集合 s 和 t， 如 果 二 者 相等 则 返回 1， 侍 则 返回 9。 这 可 以 
通过 比较 s 和 t 中 的 相对 应 的 各 个 unsigned long 值 来 完成 ， 在 发 现 szt 时 即 
可 停止 循环 : 


(functions 


145) += 


int Bit eq(T s, Tt) { 


int 1; 
assert(s && t); 
assert(s->length == t->length); 
for (i = nwords(s->length); --i >= 0; ) 
if (s->words[i] != t->words[i]) 
return 0; 


return 1; 








Bit_leq 比 较 集 合 s 和 t， 确 定 $ 是 否 等 于 t 或 是 t 的 真子 集 。 如 果 对 s 中 每 
个 置 位 的 比特 位 ，t 中 对 应 的 比特 位 都 是 1， 那 么 即 有 sSt。 在 集合 方 
面 ， 如 果 t 的 补 集 与 s 的 交集 为 空 ， 那 么 SSt。 因 而 ， 如 果 s& ETO, BE 
有 sSt， 对 s 和 t 中 的 每 个 unsigned long 来 说 ， 该 关系 仍然 成 立 。 如 果 对 所 
有 i， 都 有 s->u.words[i] St->u.words[ 让 |， 那么 束 有 sSt。Bit_leq 利 用 该 性 
质 ， 在 结果 已 知 的 情况 下 停止 比较 。 








(functions 


145) += 
int Bit_leq(T s, Tt) { 


int 1; 


assert(s && t); 
assert(s->length == t->length); 


for (i = nwords(s->length); --i >= 0; ) 


if ((s->words[i]& ~t->words[i]) != 0) 
return 0; 


return 1; 


如 果 s 是 t 的 真子 集 ，Bit_lt 返 回 1， 如 果 sSt 且 szt， 那 么 有 sCt， 这 可 以 通 
过 检查 以 下 两 项 来 确认 : 对 每 个 1， 都 有 s->u.words[i]& ~t->u.words[i] 等 
于 0; 至 少 有 一 个 1， 使 得 s->u.words[i 不 等 于 t->u.words[i]: 


(functions 


145) += 
int Bit_1t(T s, Tt) { 


int i, 1t = 0; 


assert(s && t); 

assert(s->length == t->length); 

for (i = nwords(s->length); --i >= 0; ) 
if ((s->words[i]& ~t->words[i]) != 0) 
return 0; 

else if (S->words[i] != t->words[i]) 
lt |= 1; 


return lt; 


13.2.3 ”集合 操作 


实现 集合 操作 s + t、s * t、s - thls / t 的 函数 可 以 按 每 次 一 个 长 整数 
来 处 理 集 合 ， 因 为 其 功能 与 比特 位 编号 无 天 。 这 些 函 数 还 将 T 的 NULL 
值 解释 为 空 集 ， 但 s 或 t 中 至 少 有 一 个 不 能 为 NULL 值 ， 这 样 才能 确定 结 
果 集 的 长 度 。 这 些 函 数 的 实现 类 似 ， 但 有 三 个 差别 : 当 s 和 t 指 向 同一 集 
合 时 结果 集 不 同 ， 人 处理 NULL 参 数 的 方式 不 同 ， 人 处理 两 个 非 空 集 时 形成 
结果 的 方式 不 同 。 这 些 函 数 的 相似 性 通过 setop 宏 捕获 : 











(macros 


145) += 


#define setop(sequal, snull, tnull, op 


if (s == t) { assert(s); return sequal 


; } \ 
else if (s == NULL) { assert(t); return snull 


;上 
else if (t == NULL) return tnull 


else { \ 
int i; T set; \ 
assert(s->length == t->length); \ 
set = Bit_new(s->length); \ 
for (i = nwords(s->length); --i >= 0; ) \ 


set->words[i] = s->words[i] op 


t->words[i]; \ 


return set; } 


Bit_union 可 以 代表 这 些 函 数 : 


(functions 


145) += 


T Bit_union(T s, T t) { 
setop(copy(t), copy(t), copy(s), |) 
} 


如 果 s 和 t 指 癌 同 一 集合 ， 则 结果 是 该 集合 的 一 个 副本 。 如 果 s 或 二 者 之 
一 为 NULL， 结 果 是 另 一 个 集合 (必须 不 为 NULL)〉 的 一 个 副本 。 否 
则 ， 结 果 是 一 个 集合 ， 其 中 的 各 个 unsigned long 值 是 s 和 t 中 对 应 的 
unsigned long 值 按 位 或 的 结果 。 


私有 函数 copy 会 将 其 参数 集合 复制 一 份 ， 它 首先 分 配 一 个 同样 长 度 
的 新 集合 ， 而 后 将 参数 集合 中 的 各 个 比特 位 复制 到 新 的 集合 : 


(static functions 


152) = 
static T copy(T t) { 


T set; 


assert(t); 
set = Bit_new(t->length); 
if (t->length > 0) 
memcpy(set->bytes, t->bytes, nbytes(t->length)); 


return set; 


返回 一 个 集合 ， 是 其 参 


参数 集合 的 按 位 与 结 采 : 


中 


(functions 


145) += 
T Bit_inter(T s, Tt) { 
setop(copy(t), 
Bit_new(t->length), Bit_new(s->length), &) 


如 果 s 为 NULL，s-t 是 空 集 ， 但 如 果 t 为 NULL，s-t 等 于 s。 如 果 s 和 t 都 
不 是 NULL，s-t 是 t 的 补 集 ” 和 s 的 按 位 与 结果 。 当 s 和 t 指 问 同一 Bit-T 和 集合 
时 ，s-t 为 空 集 。 


(functions 


145) += 
T Bit_minus(T s, T t) { 
setop(Bit_new(s->length), 


Bit_new(t->length), copy(s), & ~) 


setop 的 第 三 个 参数 为 & ~， 这 使 得 setop 中 的 循环 体 在 Bit_minus 中 展开 后 
的 结果 如 下 所 示 : 


set->words[i] = s->words[i] & ~t->words[i]; 


Bit_diff 实 现 了 对 称 差 s / t， 它 是 s 和 t 的 按 位 异 或 结 
时 ，s /t 等 于 t， 反 之 亦 然 。 


(functions 


145) += 
T Bit_diff(T s, Tt) { 


setop(Bit_new(s->length), copy(t), copy(s), ^) 


如 上 述 代码 所 示 ， 当 s 和 t 指 向 同 一 集合 时 ，s /为 空 集 。 


。 当 s 为 NULL 


13.3 扩展 阅读 


[Briggs and Torczon，1993] 描 述 了 一 种 集合 表示 ， 专 门 为 大 的 稀 芷 
合 设计 ， 可 以 在 党 数 时 间 内 初始 化 集合 。[Gimpel，1974] 介 绍 了 多 道 
空间 (spatially multiplexed) 的 集合 ， 习 题 13.5 描 述 了 这 种 集合 。 


13.4 习题 


13.1 在 稀 朴 集合 中 ， 大 部 分 比特 位 都 是 0(。 修 改 Bit 的 实现 ， 使 之 
通过 一 些 措施 对 稀疏 集合 节省 空间 ， 例 如 ， 不 存储 大 量 重 复 的 0。 








13.2 ”设计 一 个 接口 ， 支 持 [Briggs and Torczon，1993] 描 述 的 稀疏 
集合 ， 并 实现 你 的 接口 。 


13.3 Bit_set 使 用 下 述 循环 


for (i = lo/8+1; i < hi/8; i++) 


set->bytes[i] = OxFF; 


将 从 lo/8+1 到 hi/8 的 各 字 节 的 所 有 比特 位 置 位 。Bit_clear 和 Bit_not 也 有 类 
似 的 循环 。 修 改 这 些 循环 ， 在 可 能 的 情况 下 ， 对 unsigned long〔 而 不 是 
字 节 ) 来 清 零 、 置 位 和 取 反 。 注 意 对 齐 约束 。 这 项 改变 可 能 对 某 些 应 用 
程序 的 执行 时 间 有 可 测量 的 改进 ， 你 能 找到 这 样 的 应 用 程序 吗 ? 











13.4 ”假定 Bit 接 口中 的 函数 可 以 跟踪 集合 中 置 位 的 比特 位 的 数目 。 
Bit 接 口中 哪些 函数 可 以 简化 或 改进 ? 实现 这 种 方案 ， 并 设计 一 个 测试 
程序 ， 来 测定 速度 的 提高 。 请 确定 在 何 种 情况 下 ， 这 种 做 法 的 好 处 可 以 
抵消 其 成 本 。 





13.5 在 多 道 空 间 集合 中 ， 比 特 位 是 按 字 存储 的 。 在 一 台 int 位 宽 为 
32 位 的 计算 机 上 ， 一 个 包含 N 个 unsigned int 的 数组 ， 可 以 容纳 32 个 N 比 
特 位 的 集合 。 该 数组 的 每 个 比特 位 列 都 是 一 个 集合 。 一 个 32 位 的 撼 码 ， 
仅 在 比特 位 置 位 ， 即 标识 了 列 i 处 的 集合 。 这 种 表示 的 一 个 好 处 是 ， 通 


过 操作 这 种 掩 码 ， 一 些 操 作 可 以 在 常数 时 间 内 完成 。 例 如 两 个 集合 的 并 
集 ， 其 掩 码 是 两 个 源 集合 的 掩 码 的 并 集 。 许 多 N 位 集合 ， 可 以 共 至 同一 
个 N 字 的 数组 ， 分 配 一 个 新 集合 时 ， 只 需 从 数组 中 分 配 一 个 空 几 的 位 列 
即 可 《如 果 没 有 空 闪 位 列 ， 则 需要 分 配 新 数组 )。 这 种 性 质 可 以 节省 空 
间 ， 但 却 使 存储 管理 大 大 复杂 化 ， 因 为 对 任意 N 值 ， 实 现 都 必须 跟踪 有 
空闲 位 列 的 N 字 数组 。 使 用 这 种 表示 重新 实现 Bit 接 口 。 如 果 必 须 改变 原 
接口 ， 可 以 设计 一 个 新 接口 。 





[1] 实际 上 是 基于 数组 的 预计 算 实现 。 一 一 译 者 注 


译 者 注 





[2] 不 是 length 个 比特 位 。 


第 14 章 ”格式 化 


标准 C 库 函数 printf、fprintf 和 vprintf 可 以 格式 化 数据 并 输出 ， 而 
sprintf 和 vsprintf 可 以 将 数据 格式 化 到 字符 串 中 。 这 些 函数 调用 时 的 参数 
包括 一 个 格式 串 和 一 组 参数 列表 ， 列 表 中 的 参数 将 被 格式 化 。 格 式 化 的 
过 程 ， 由 舱 入 到 格式 串 中 的 转换 限定 符 (conversion specifier， 形 
如 %c) 控制 ， 第 i 个 %c 摘 述 了 格式 串 之 后 的 参数 列表 中 第 i 个 参数 如 何 格 
式 化 。 格 式 串 中 其 他 字符 逐 字 复制 。 例 如 ， 如 果 name 是 字符 串 Array,， 
而 count 为 8， 


sprintf(buf, "The %s interface has %d functions\n", 


name, count) 


会 将 字符 串 "The Array interface has 8 functionsn" 填 充 到 buf 中 ， 其 中 n 表 
示 换 行 符 。 转 换 限 定 符 还 可 以 包含 宽度 、 精 度 和 填充 字符 等 说 明 信 息 。 
例如 ， 如 果 在 上 述 的 格式 串 中 使 用 %06d 而 不 是 %d， 那 么 会 将 字符 
"The Array interface has 000008 functions\n" 填 充 到 buf 中 。 











这 些 函 数量 无 疑问 很 有 用 ， 但 却 至 少 有 4 个 缺点 。 前 先 ， 转 换 限 定 
符 的 集合 是 固定 的 ， 因 而 无 法 提供 特定 于 客户 程序 的 代码 。 其 次 ， 格 式 
化 的 结果 ， 只 能 输出 或 存储 到 字符 串 中 ， 无 法 指定 特定 于 客户 程序 的 输 
出 例 程 。 再 次 ， 也 是 最 危险 的 缺点 是 ，sprintf 和 vsprintf 可 能 试图 在 输出 
绥 冲 区 中 存储 超出 其 容量 的 字符 ， 同 时 又 无 法 指定 输出 缓冲 区 的 大 小 。 
最 后 ， 对 于 参数 列表 的 可 变 部 分 传递 的 各 个 参数 ， 没 有 对 应 的 类 型 检查 














机 制 。Fmt 接 口 改 正 了 前 三 个 缺点 。 


14.1 接口 


Fmt 接 口 导 出 了 11 个 函数 、 一 个 类 型 、 一 个 变量 和 一 个 异常: 


(fmt.h 


= 
#ifndef FMT_INCLUDED 
#define FMT_INCLUDED 
#include <stdarg.h> 
#include <stdio.h> 


#include "except.h" 


#define T Fmt_T 
typedef void (*T)(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision); 


extern char *Fmt_flags; 


extern const Except_T Fmt_Overflow; 


(exported functions 


155) 


#undef T 
#endif 


从 技术 上 讲 ，Fmt 不 是 一 个 抽象 数据 类 型 ， 但 它 确 实 导 出 了 一 个 类 型 
Fmt_T， 它 定义 了 与 每 个 格式 化 代码 关联 的 格式 转换 函数 的 类 型 ， 下 文 
将 详细 阐述 。 


14.1.1 格式 化 函数 


两 个 主要 的 格式 化 函数 是 : 


(exported functions 


155) = 

extern void Fmt_fmt (int put(int c, void *cl), void *cl, 
const char *fmt, ...); 

extern void Fmt_vfmt(int put(int c, void *cl), void *cl, 


const char *fmt, va_list ap); 


Fmt_fmt 按 照 第 三 个 参数 fmt 给 出 的 格式 串 来 格式 化 其 第 四 个 和 后 续 参 
A; 并 调用 put(c, cl) 来 输出 每 个 格式 化 完毕 的 字符 c; c 当 做 unsigned char 


处 理 ， 因 此 传递 到 put 的 c 值 总 是 正 的 。Fmt_vfmt 按 照 fmt 给 出 的 格式 串 来 
格式 化 ap 指 同 的 各 个 参数 ， 有 具体 过 程 类 似 Fmt_ fmt， 如 下 所 述 。 





参数 cl 可 以 指 癌 客户 程序 提供 的 数据 ， 它 会 直接 传递 给 客户 程序 提 
供 的 put 函 数 而 不 作 解释 。put 函 数 返 回 一 个 整数 ， 通 常 是 其 参数 。Fmt 函 
数 并 不 使 用 该 功能 ， 但 这 种 设计 使 得 可 以 条 些 机 此 上 将 标准 VO 函数 
fputc 用 作 put 函 数 《〈 同 时， 需要 作为 q 传 递 FLE* ) 。 例 如 ， 


Fmt_fmt((int (*)(int, void *))fputc, stdout, 


"The %s interface has %d functions\n", name, count) 


输出 


The Array interface has 8 functions 


到 标准 输出 ， 此 时 name 为 Array 而 count 为 8。 其 中 的 转换 是 必要 的 ， 
为 fputc 的 类 型 为 int (*)(int, FILE*)， 而 put 的 类 型 为 int (*)(int, void*). 1K 
当 FILE 指 针 的 表示 与 void 指针 相同 时 ， 这 种 用 法 才 是 正确 的 。 


图 14-1 给 出 的 语法 图 定义 了 转换 限定 符 的 语法 。 转 换 限 定 符 中 的 字 
符 定 义 了 一 条 穿 过 语法 图 的 路 径 ， 有 效 的 限定 符 会 从 头 到 尾 遍 有 历 一 条 路 
径 。 限 定 符 以 % 开 涉 ， 后 接 可 选 的 标志 字符 ， 其 解释 取决 于 格式 码 ， 接 
下 来 是 可 选 的 字段 宽度 、 周 期 和 精度 ， 最 后 以 单字 符 的 格式 码 结束 ， 由 
图 14-1 中 的 C 表 示 。 有 效 的 标志 字符 是 那些 出 现在 Fmt_flags 指 向 的 字符 
串 中 的 字符 ， 它 们 通常 指定 了 对 齐 (justification〉、 填 充 (padding) 和 
截断 (truncation) 信息 。 如 果 一 个 标志 字符 在 一 个 限定 符 中 出 现 多 于 
255 次 ， 则 是 已 检查 的 运行 时 错误 。 如 果 字 段 宽 度 或 精度 显示 为 星 号 ， 
那么 假定 下 一 个 参数 为 整数 ， 且 用 作 宽 度 或 精度 。 因 而 ， 一 个 限定 符 可 
能 消耗 零 或 多 个 参数 ， 这 取 雇 于 星 号 的 出 现 与 否 以 及 与 格式 码头 联 的 具 

















体 转换 函数 。 如 果 指 定 的 宽度 或 精度 值 等 于 INT_MIN〈 最 小 的 负 整 
数 ) ， 则 是 已 检查 的 运行 时 错误 。 





specification: ie number 
gett pee 可 ig aoe > 
—'%' —-> C— 


number: 


+ digit aha ag 


图 14-1 转换 限定 符 的 语法 














标志 、 宽 度 和 精度 的 准确 的 解释 ， 取 决 于 与 转换 限定 符 关 联 的 转换 
函数 。 上 所 调用 的 转换 函数 ， 征 调用 Fmt_fmt 时 已 注册 的 那些 函数 。 


默认 的 转换 限定 符 及 与 之 相关 的 转换 函数 ， 是 标准 IO 库 中 printf 和 
相关 函数 功能 的 一 个 子 集 。EFmt_flags 的 初始 值 指向 字符 串 "-+ 0"， 其 中 
的 字符 是 有 效 的 标 关 字符 。- 使 得 被 转换 的 字符 串 按 给 定 的 字段 览 度 同 
左 对 齐 ， 人 否则 ， 字 符 串 将 网 右 对 齐 。+ 使 得 符号 转换 的 结果 以 -或 + 开 
始 。 空 格 使 得 符号 转换 的 结果 以 空格 开始 《如 果 是 正 的 ) 。0 使 得 数字 
转换 的 结果 在 前 部 用 0 补 齐 ， 直 至 达到 字段 宽度 为 目 ， 人 否则 使 用 空格 补 
Fo 负数 宽度 解释 为 -标志 加 上 对 应 的 正 数 锅 度 值 。 负 数 精度 解释 为 没 
有 指定 精度 。 





表 14-1 综 述 了 默认 的 转换 限定 符 。 这 些 是 标准 C 库 中 的 定义 的 限定 
和 从 的 一 个 子 集 。 


表 14-1 默认 的 转换 限定 符 


转换 限定 符 参数 类 型 
int 
a 
int 


6 w x 
unsigned 


£ 
double 


e 
double 


g 
double 


以 下 函数 


描 ik 

参数 解释 为 无 符号 字符 并 输出 

参数 将 转换 为 其 有 符号 十 进 制 表示 。 如 果 给 定 精度 ， 精 度 指定 了 最 少 的 数位 数目 ， 如 有 必 
要 ， 则 会 在 前 部 加 0 补 齐 。 默 认 精 度 是 1。 如 果 - 和 0 标志 同时 出 现 , 或 给 定 了 精度 ， 则 忽略 0 
标志 。 如 果 + 和 空格 标志 同时 出 现 ， 则 忽略 空格 标志 。 如 果 参 数 和 精度 是 9， 那么 转换 后 的 结 
果 不 会 有 字符 输出 

参数 转换 为 无 符号 表示 (o 表 示 八 进 制 ,，u 表 示 十 进 制 ，x 表 示 十 六 进 制 )。 对 于 x， 大 于 9 
的 数位 分 别 用 字母 abcqef 表 示 。 标 志和 精度 的 解释 类 似 于 a 

参数 转换 为 为 十 进 制 表示 ， 形 如 xy。 精 度 给 定 了 小 数 点 右 侧 数位 的 数目 ， 默 认 值 为 6。 如 
果 将 精度 显 式 指定 为 0， 则 省 略 小 数 点 。 在 小 数 点 出 现时 ，x 至 少 有 一 个 数位 。 精 度 大 于 99， 
则 是 已 检查 的 运行 时 错误 。 标 志 的 解释 类 似 于 a 

参数 转换 为 为 十 进 制 表 示 ， 形 如 x.ye 坊 。x 总 是 一 个 数位 ，p 总 是 两 个 数位 。 标 志和 精度 的 
解释 类 似 于 a 

参数 以 f 或 e 的 方式 转换 为 十 进 制 表示 ， 具体 如 何 转 换取 决 于 其 值 。 精 度 给 定 了 有 效 数 字 的 
数目 ， 默 认 值 为 1L。 如 果 p 小 于 -4 或 大 于 等 于 精度 ， 则 结果 形 如 x.ye 雪 ， 否 则 ， 结 果 形 如 x.y。 
y 没 有 后 补 零 ， 当 y 为 0 时 忽略 小 数 点 。 精 度 大 于 99， 则 是 已 检查 的 运行 时 错误 

参数 转换 为 其 十 六 进 制 表示 ， 规 则 类 似 u。 标 志和 精度 的 解释 类 似 于 a 


来 自 于 对 应 参数 的 后 续 字符 都 会 输出 ， 直 至 遇 到 0 字符 为 止 ， 或 输出 的 字符 数 已 经 达到 了 
显 式 设置 的 精度 限制 。 除 -之 外 的 所 有 标志 都 会 忽略 


‘exported functions 


155) += 


extern void Fmt_print (const char *fmt, ...); 


extern void Fmt_fprint(FILE *stream, 


const char *fmt, ...); 


extern int Fmt_sfmt (char *buf, int size, 


const char *fmt, ...); 


extern int Fmt_vsfmt(char *buf, int size, 


const char *fmt, va_list ap); 


类 似 于 C 库 函数 printf、fprintf、sprintf 和 vsprintf。 


Fmt_fprint#2< R fmt2a E HAS TUR RA LL TAB RL, FP 
格式 化 输出 写 到 指定 的 流 中 。Fmt_print 将 格式 化 输出 写 到 标准 输出 。 


Fmt_sfmt 按 照 fmt 给 定 的 格式 串 来 格式 化 第 四 个 和 后 续 参 数 ， 将 格 
式 化 输出 以 0 结尾 字符 串 形式 ， 存 储 到 buf[0..size - 1] 中 。Fmt_vsfmt 的 语 
义 类 似 ， 但 其 参数 则 取 自 于 可 变 长 上 度 参数 列表 ap。 这 两 个 函数 都 会 返回 
存储 到 buf 中 字符 的 数目 ， 不 计算 结尾 的 0 字符 。 如 果 Fmt_sfmt 和 
Fmt_vsfmt 输 出 的 字符 数 多 于 size 〈 包 含 结 尾 的 0 字符 ) ， 则 引发 
Fmt_Overflow 异 常 。 如 果 size 不 是 正 值 ， 则 造成 已 检查 的 运行 时 错误 。 








以 下 两 个 函数 


‘exported functions 


155) += 
extern char *Fmt_string (const char *fmt, ...); 


extern char *Fmt_vstring(const char *fmt, va_list ap); 


类 似 Fmt_sfmt 和 Fmt_vsftmt， 但 它们 会 分 配 足 够 大 的 字符 串 来 容纳 格式 
化 输出 结果 ， 并 返回 这 些 字 符 串 。 客 户 程序 负责 释放 返回 的 字符 串 。 
Fmt_string 和 Fmt_vstring 可 能 引发 Mem_Failed 异 常 。 





如 果 传 递 给 上 述 任 一 格式 化 函数 的 参数 put、buf 或 fmt 为 NULL， 则 
造成 已 检查 的 运行 时 错误 。 





14.1.2 ”转换 函数 


每 个 格式 符 C 都 天 联 到 一 个 转换 函数 。 这 些 关 联 可 以 通过 调用 下 述 
函数 来 改变 : 


(exported functions 


155) += 


extern T Fmt_register(int code, T cvt); 


Fmt_register 将 cvt 设 置 为 code 指 定 的 格式 符 对 应 的 转换 函数 ， 并 返回 指 
癌 先前 转换 函数 的 指针 。 因 而 ， 客 户 程序 可 以 临时 芍 换 转换 函数 ， 而 后 
又 恢复 到 原来 的 转换 函数 。code 小 于 1 或 大 于 255， 都 是 已 检查 的 运行 时 
错误 。 如 果 格 式 串 使 用 的 转换 限定 符 没 有 相关 联 的 转换 函数 ， 同 样 是 已 
检查 的 运行 时 错误 。 





许多 转换 函数 ， 都 是 %d 和 %s 转 换 限 定 符 对 应 的 转换 函数 的 变 体 。 
Fmt 导 出 了 两 个 实用 函数 ， 供 对 应 于 数值 和 字符 串 的 内 部 转换 函数 使 
用 。 


(exported functions 


155) += 


extern void Fmt_putd(const char *str, int len, 

int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision); 
extern void Fmt_puts(const char *str, int len, 

int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision); 








Fmt_putd 假 定 str[0..len-1] 包 含 了 一 个 有 符 写 数 的 字符 串 表 示 ， 它 将 按照 
flags、width 和 precision 指 定 的 转换 ， 如 表 14-1 中 的 %d 所 述 ， 来 输出 该 字 
符 串 。 类 似 地 ，Fmt_puts 按 照 i 、width 和 precision 指 定 的 转换 ， 如 %s 





所 述 ， 来 输出 str[0..len - 。 如 果 传 递 给 Fmt_putd 或 Fmt_puts 的 str 为 
NULL、len 为 负 值 、 a 则 是 已 检查 的 运行 时 
错误 。 


FEmt_putd 和 Fmt_puts 本 刁 不 是 转换 函数 ， 但 可 以 被 转换 函数 调用 。 
在 编写 特定 于 客户 程序 的 转换 函数 时 ， 这 两 个 函数 特别 有 用 ， 如 下 文 说 
明 。 











类 型 Fmt IT 定义 了 转换 函数 的 签名 ， 即 其 参数 的 类 型 和 返回 类 型 。 
转换 函数 调用 时 有 七 个 参数 。 前 两 个 是 格式 码 和 指向 可 变 长 度 参 数列 表 
虽 针 的 指针 ， 该 参数 列表 用 于 访问 被 格式 化 的 数据 。 第 三 个 和 第 四 个 参 
数 是 客户 程序 的 输出 函数 和 相关 数据 。 最 后 三 个 参数 是 标志 、 字 段 宽度 
和 精度 。 标 志 通 过 一 个 256 个 元 素 的 字符 数组 给 出 ， 第 i 个 元 素 等 于 标志 
字符 ji 在 转换 限定 符 中 出 现 的 次 数 。width 和 precision 在 没有 显 式 给 出 时 
等 于 INT_MIN。 











转换 函数 必须 使 用 如 下 的 表达 式 


va_arg(*app, type 


) 


来 取得 参数 ， 并 根据 与 该 转换 函数 相关 联 的 格式 码 进行 格式 化 。type 是 
该 参数 的 预期 类 型 。 该 表达 式 取得 参数 的 值 ， 然 后 将 *app 加 1 使 之 指 癌 

下 一 个 参数 。 如 果 转 换 函 数 使 *app 不 正确 地 递增 ， 则 造成 未 检查 的 运行 
时 错误 。 





Fmt 用 于 限定 符 %s 的 私有 转换 函数 ， 说 明了 如 何 编写 转换 函数 ， 以 
及 如 何 使 用 Fmt_puts。 限 定 符 %s 类 似 printf 的 %s: 其 转换 函数 将 输出 对 
应 的 参数 字符 串 中 的 字符 ， 直 至 遇 到 0 字符 为 止 ， 或 输出 字符 的 数目 己 
经 达到 了 可 选 精度 的 限制 。- 标 志 或 负数 宽度 指定 了 左 对 齐 。 转 换 函 数 
使 用 va_arg 从 可 变 长 度 参数 列表 中 取得 参数 并 调用 Fmt_puts: 





‘conversion functions 


159) = 
static void cvt_s(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


char *str = va_arg(*app, char *); 


assert(str); 


Fmt_puts(str, strlen(str), put, cl, flags, 


width, precision); 


Fmt_puts 解 释 flags、width 和 precision， 并 据 此 输出 字符 串 


(functions 


159) = 
void Fmt_puts(const char *str, int len, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) { 
assert(str); 
assert(len >= 0); 


assert(flags); 


(normalize 


width and 


flags 159) 


if (precision >= 0 && precision < len) 
len = precision; 

if (!flags['-']) 
pad(width - len, ' '); 


(emit 


str[@..len-1] 159) 
if ( flags['-']) 
pad(width - len, ' '); 


(emit 


str[@..len-1] 159) = 


{ 
int 1; 
for (i = 0; i < len; i++) 
put((unsigned char)*str++, cl); 
} 


到 unsigned ”char 的 转换 确保 了 传递 给 put 的 值 总 是 较 小 的 正 整 数 ， 正 如 
Fmt 的 规格 所 限定 。 


在 忽略 宽度 或 精度 时 ，width 和 precision 等 于 INT_MIN。 该 接口 提供 
了 特定 于 客户 程序 的 转换 函数 所 需 的 灵活 性 ， 使 之 能 够 对 宽度 和 精度 使 
用 显 式 设置 /省 略 值 的 所 有 组 合 ， 还 可 以 使 用 重复 的 标志 。 但 默认 转换 
函数 不 需要 这 种 一 般 性 ， 它 们 将 省 略 的 宽度 视 为 显 式 将 宽度 设置 为 0， 
负数 宽度 视 为 -标志 连同 对 应 的 正 数 宽度 ， 负 数 精度 视 为 省 略 精 度 ， 重 
复出 现 的 标志 被 视 作 只 出 现 一 次 。 如 果 有 显 式 设 置 的 精度 ， 则 忽略 0 标 
志 ， 而 且 如 上 所 示 ， 至 多 会 输出 str 中 的 precision 个 字符 。 











(normalize 


width and 


flags 159) = 


(normalize 


width 160) 


(normalize 


flags 160) 


(normalize 


width 160) 


if (width == INT_MIN) 
width = 0; 

if (width < 0) { 
flags['-'] = 1; 


width = -width; 


(normalize 


flags 160) = 
if (precision >= 0) 


flags['0'] = 0; 


如 对 pad 的 调用 所 示 ， 必 须 输出 width-len 个 空格 来 正确 地 对 齐 输 
出 : 


(macros 


160) = 


#define pad(n,c 


) do { int nn = (n 


); 、 
while (nn-- > 0) \ 


put((c 


), cl); } while (0) 
pad 是 一 个 宏 ， 因 为 它 需 要 访问 put 和 cl。 


下 一 市 将 描述 其 他 默认 转换 函数 的 实现 。 


14.2 ”实现 





FEmt 的 实现 包括 接口 中 定义 的 各 个 函数 ， 与 默认 转换 限定 符 关 联 的 
转换 函数 ， 以 及 将 转换 限定 符 上 映射 到 转换 函数 的 表 。 


(fmt.c 


Y= 
#include <stdarg.h> 
#include <stdlib.h> 
#include <stdio.h> 
#include <string.h> 
#include <limits.h> 
#include <float.h> 
#include <ctype.h> 
#include <math.h> 
#include "assert.h" 
#include "except.h" 
#include "fmt.h" 
#include "mem.h" 


#define T Fmt_T 


(types 


162) 


(macros 


160) 


(conversion functions 


159) 
(data 


160) 


(static functions 


161) 


(functions 


159) 


(data 


160) = 


const Except_T Fmt_Overflow = { "Formatting Overflow" }; 


14.2.1 格式 化 函数 


FEmt_vfmt 是 实现 的 核心 ， 因 为 所 有 其 他 接口 函数 都 调用 它 来 完成 实 
际 的 格式 化 工作 。Fmt_fmt 是 最 简单 的 例子 ， 它 初始 化 一 个 va_list 指 针 ， 
指 同 其 参数 列表 的 可 变 部 分 ， 并 调用 Fmt_vfmt: 


(functions 


159) += 
void Fmt_fmt(int put(int c, void *), void *cl, 
const char *fmt, ...) { 


va_list ap; 


va_start(ap, fmt); 


Fmt_vfmt(put, cl, fmt, ap); 


va_end(ap); 


Fmt_print 和 Fmt_fprint 调 用 Fmt_vfmt 时 ， 将 outc 作 为 put 函 数 ， 将 对 
应 于 标准 输出 的 流 或 给 定 的 流 作为 相关 的 数据 : 


(static functions 


161) = 
static int outc(int c, void *cl) { 


FILE *f = cl; 


return putc(c, f); 


(functions 


159) += 

void Fmt_print(const char *fmt, ...) { 
va_list ap; 
va_start(ap, fmt); 


Fmt_vfmt(outc, stdout, fmt, ap); 


va_end(ap); 


} 
void Fmt_fprint(FILE *stream, const char *fmt, ...) { 
va_list ap; 
va_start(ap, fmt); 
Fmt_vfmt(outc, stream, fmt, ap); 
va_end(ap); 
} 


Fmt_sfmt 调 用 Fmt_vsfmt: 


(functions 


159) += 
int Fmt_sfmt(char *buf, int size, const char *fmt, ...) { 
va_list ap; 


int len; 


va_start(ap, fmt); 
len = Fmt_vsfmt(buf, size, fmt, ap); 
va_end(ap); 


return len; 


Fmt_vsfmt 调 用 Fmt_vfmt 时 ， 传 递 了 一 个 put 函 数 和 一 个 指 同 结构 的 
指针 ， 该 结构 跟踪 了 需要 格式 化 输出 到 buf 的 字符 串 和 buf 能 够 容纳 的 字 
符 数 : 





(types 


162) = 

struct buf { 
char *buf; 
char *bp; 
int size; 


}; 





buf 和 size 实 际 上 是 复制 了 Fmt_vsfmt 的 名 称 类 似 的 参数 ， 而 bp 则 指向 buf 
中 输出 下 一 个 被 格式 化 字符 的 位 置 。Fmt_vsfmt 会 初始 化 该 结构 的 一 个 
局 部 变量 实例 ， 并 将 指向 该 实例 的 一 个 指针 传递 给 FEmt_vfmt: 


(functions 


159) += 


int Fmt_vsfmt(char *buf, int size, const char *fmt, 


va_list ap) { 


struct buf cl; 


assert(buf); 
assert(size > 0); 
assert(fmt); 

cl.buf = cl.bp = buf; 


cl.size = size; 


Fmt_vfmt(insert, &cl, fmt, 


insert(0, &cl); 


return cl.bp - cl.buf - 1; 


ap); 


上 述 对 Fmt_vfmt 的 调用 ， 内 部 又 调用 了 私有 函数 insert， 参 数 是 每 














会 检查 是 否 有 空 











的 位 置 ， 并 将 bp 字段 加 1: 


(static functions 


161) += 


static int insert(int c, void 


struct buf *p = cl; 


一 个 需要 输出 的 字符 和 指向 Fmt_vsfmt 的 局 部 buf 结 构 实 例 的 指针 。insert 
x 间 容纳 需要 输出 的 字符 ， 并 将 该 字符 存储 到 bp 字段 指 同 





*cl) { 


if (p->bp >= p->buf + p->size) 


RAISE(Fmt_Overflow) ; 
*p->bp++ = Cc; 


return c; 


Fmt_string 和 Fmt_vstring 的 工作 原理 同上 ， 只 是 使 用 了 不 同 的 put 函 
数 。Fmt_string 调 用 了 Fmt_vstring: 


(functions 


159) += 
char *Fmt_string(const char *fmt, ...) { 
char *str; 


va_list ap; 


assert(fmt); 

va_start(ap, fmt); 

str = Fmt_vstring(fmt, ap); 
va_end(ap); 


return str; 


Fmt_vstring 将 buf 结 构 实 例 初 始 化 为 一 个 可 容纳 256 个 字符 的 字符 
串 ， 并 将 执行 该 实例 的 指针 传递 给 Fmt_vfmt: 


(functions 


159) += 
char *Fmt_vstring(const char *fmt, va_list ap) { 


struct buf cl; 


assert(fmt); 

cl.size = 256; 

cl.buf = cl.bp = ALLOC(cl.size); 
Fmt_vfmt(append, &cl, fmt, ap); 
append(0, &cl); 

return RESIZE(cl.buf, cl.bp - cl.buf); 


append 类 似 于 Fmt_vsfmt 的 put， 只 是 它 会 在 必要 时 将 buf 的 容量 加 倍 ， 使 
之 能 够 容纳 格式 化 输出 的 字符 。 





(static functions 


161) += 
static int append(int c, void *cl) { 


struct buf *p = cl; 


if (p->bp >= p->buf + p->size) { 
RESIZE(p->buf, 2*p->size); 
p->bp = p->buf + p->size; 


p->size *= 2; 


I 
*p->bp++ = Cc; 


return C; 


当 Fmt_vstring 完 成 时 ，buf 字 段 指 向 的 内 存 空 间 可 能 过 长 ， 这 也 是 
Fmt_vstring 调 用 RESIZE 释 放 过 多 空间 的 原因 。 





Fmt_vfmt 是 所 有 格式 化 函数 的 终点 。 它 会 解释 格式 串 ， 并 对 每 个 格 
式 限 定 符 调 用 适当 的 转换 函数 。 对 格式 串 中 的 其 他 字符 ， 它 调用 put 函 
Bl: 


(functions 


159) += 
void Fmt_vfmt(int put(int c, void *cl), void *cl, 
const char *fmt, va_list ap) { 
assert(put); 
assert(fmt); 
while (*fmt) 
if (*fmt != '%' || *++fmt == '%') 
put((unsigned char)*fmt++, cl); 
else 


(format an argument 


164) 


<format an argument 164> 代 码 块 中 的 大 部 分 工作 ， 都 是 在 逐一 处 理 
各 个 标志 、 字 段 宽度 和 精度 设置 ， 以 及 处 理 转换 限定 符 没有 对 应 的 转换 
函数 的 可 能 性 。 在 该 代码 块 中 (如 下 〉，width 给 出 了 字段 宽度 ， 而 
precision 给 出 了 精度 。 








‘format an argument 


164) = 


unsigned char c, flags[256]; 
int width = INT_MIN, precision = INT_MIN; 
memset(flags, '\O', sizeof flags); 


(get optional flags 


165) 


(get optional field width 


165) 


(get optional precision 


166) 
c = *fmt++; 
assert(cvt[c]); 


(*cvt[c])(c, &ap, put, cl, flags, width, precision); 





cvt 是 指向 转换 函数 的 指针 的 数组 ， 它 通过 格式 符 索 引 。 在 上 述 的 代码 
块 中 需要 将 c 声 明 为 unsigned char， 这 确保 了 将 *fmt 解 释 为 0 一 255 范 围 内 
的 整数 。 





cvt 初 始 化 时 ， 只 设置 了 对 应 默认 转换 限定 符 的 转换 函数 ， 假 定 字 
符 使 用 ASCII 编 码 : 


(data 


160) += 

static T cvt[256] = { 
A 0- 7 */ ©, 

/* 8- 15 */ 0, 

/* 16- 23 */ 0, 

/* 24- 31 */ Q, 


/* 32- 39 */ 0, 0, O, 0, 0, 0, 0, O, 
/* 40- 47 */ O, 0, O, 0, 0, O, 0, O, 
/* 48- 55 */ 0, 0, O, 0, 0, O, 0, 0, 
/* 56- 63 */ 0， ©, O, 0, 0, O, 0, O, 
/* 64- 71 */ Q, 0, O, 0, 0, 0, O, 0, 
/* 72- 79 */ O, 0, O, 0, 0, 0, 0, 0, 
/* 80- 87 */ 0， ©, O, 0, 0, 0, O, 0, 
/* 88- 95 */ 0， ©, O, 0, O, 0, O, 0, 
/* 96-103 */ 0, 0, ©, cvt_c, cvt_d, cvt_f, cvt_f, cvt_f, 
/* 104-111 */ 0, ©, O, O, 0, O, 0, cvt_o, 
/* 112-119 */ cvt_p, 0, ©, cvt_s, ©, cvt_u, 0, 0, 
/* 120-127 */ cvt_x, 0, 0, O, O, O, O, 0 


}; 





Fmt_register 通 过 将 cvt 中 适当 的 元 素 设 置 为 相应 的 函数 指针 ， 来 设 
置 一 个 新 的 转换 函数 。 它 返回 该 元 素 的 原 值 : 





(functions 


159) += 
T Fmt_register(int code, T newcvt) { 


T old; 


assert(0 < code 


&& code < (int)(sizeof (cvt)/sizeof (cvt[0]))); 


old = cvt[code]; 
cvt[code] = newcvt; 


return old; 


扫描 转换 限定 符 的 代码 块 遵循 图 14-1 给 出 的 语法 ， 扫 描 过 程 中 会 逐 
次 对 fmt 加 1。 第 一 个 代码 块 处 理 标志 : 


(data 


160) += 


char *Fmt_flags = "-+ 0"; 


(get optional flags 


165) = 
if (Fmt_flags) { 
unsigned char c = *fmt; 
for ( ; c && strchr(Fmt_flags, c); c = *++fmt) { 
assert(flags[c] < 255); 


flags[c]++; 


接 下 来 处 理 字段 宽度 : 


‘get optional field width 


165) = 
if (*fmt == '*' || isdigit(*fmt)) { 
int n; 


(n — next argument or scan digits 


宽度 或 精度 设置 中 都 可 能 出 现 星 写 ， 而 在 这 种 情况 下 下 一 个 整数 参数 所 
供 了 对 应 的 值 。 


(n — next argument or scan digits 


165) = 
if (*fmt == '*') { 
n = va_arg(ap, int); 


assert(n != INT_MIN); 


Fmt++; 
} else 
for (n = 0; isdigit(*fmt); fmt++) { 
int d = *fmt - 'O'; 
assert(n <= (INT_MAX - d)/10); 


n = 10*n + d; 





如 该 代码 所 示 ， 在 参数 指定 了 宽度 或 精度 时 ， 其 值 不 能 为 INT_MIN， 访 
值 是 保留 的 ， 作 为 默认 值 。 在 宽度 或 精度 显 式 给 出 时 ， 它 不 能 大 于 
INT MAX， 这 等 效 于 约束 10 * n + d< INT MAX， 即 10 * n + d 不 会 上 
洲 。 我 们 必须 在 不 导致 上 溢 的 情况 下 进行 该 测试 ， 这 也 是 在 上 述 的 断言 
中 将 约束 重 写 的 原因 。 














句点 表明 接 下 来 是 一 个 可 选 的 精度 设置 : 


(get optional precision 


166) = 
if (*fmt == '.' && (*++fmt == '*' || isdigit(*fmt))) { 
int n; 


(n — next argument or scan digits 


165) 


precision = n; 


} 





请 注意 ， 句 点 如 条 没有 后 接 星 号 或 数字 ， 那 么 将 处 理 以 及 解释 为 显 式 忽 
略 的 精度 。 


14.2.2 ”转换 函数 


cvt_s 是 对 应 于 %s 的 转换 函数 ， 在 14.1.2 节 给 出 。cvt_d 是 对 应 于 %d 
的 转换 函数 ， 在 格式 化 数字 的 转换 函数 中 具有 代表 性 。 它 会 获取 整数 参 
数 ， 将 其 转换 为 无 符号 整数 ， 并 在 局 部 缓冲 区 中 生成 适当 的 字符 串 〈 转 
换 从 最 高 有 效 位 开始 ) 。 它 接 下 来 调用 Fmt_putd 输 出 字符 串 。 


(conversion functions 


159) += 
static void cvt_d(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
int val = va_arg(*app, int); 
unsigned m; 


(declare 


buf and 


p, initialize 


p 166) 


if (val == INT_MIN) 
m = INT_MAX + 1U; 
else if (val < 0) 


m = -val; 


m = val; 
do 
*--p = m%10 + '0'; 
while ((m /= 10) > 0); 
if (val < 0) 
tepos Haig 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


(declare 


buf and 


p, initialize 


p 166) = 
char buf[43]; 


char *p = buf + sizeof buf; 


cvt_d 使 用 无 符号 算术 的 原因 ， 与 Atom_int 相 同 ， 
解释 了 为 何 buf 有 43 个 字符 。 


(functions 


159) += 
void Fmt_putd(const char *str, int len, 


int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) 


int sign; 


请 参见 3.2 


He 


Tis 


其 中 还 


assert(str); 
assert(len >= 0); 
assert(flags); 


(normalize 


width and 


flags 159) 


(compute the sign 


167) 


{ (emit 


str justified in 


width 167) } 
} 


Fmt_putd 必 须 按照 flags、width 和 precision 的 规定 输出 str 中 的 字符 串 。 如 
果 精 度 已 经 给 出 ， 那 么 它 指定 了 必须 输出 的 最 小 位 数 。 必 须 输 出 精度 指 
定 的 那么 多 位 数 ， 这 可 能 需要 在 前 部 补 0。Fmt_putd 首 先 确 定 是 人 否 需 要 
输出 符号 或 在 前 部 添加 空格 ， 然 后 将 Sign 设置 给 该 字符 : 








(compute the sign 


167) = 
if (len > 0 && (*str == '-' || *str == '+')) { 
Sign = *str++,; 
len--; 
} else if (flags['+']) 
Sign = 't'; 
else if (flags[' ']) 
Sign = ' '; 
else 


sign = 0; 


<compute the sign 167> 代 人 码 块 中 if 语 句 的 次 序 ， 实 现 了 + 标志 优先 于 空格 
标志 的 规则 。 转 换 结 果 的 长 度 n， 取 决 于 精度 、 被 转换 的 值 和 符号 : 


(emit 


str justified in 


width 167) = 
int n; 
if (precision < 0) 
precision = 1; 
if (len < precision) 
n = precision; 
else if (precision == 0 && len == 1 && str[0] == 'O') 
n= 0; 
else 
n = len; 
if (sign) 


n++; 


了 


n 被 赋值 为 需要 输出 的 字符 数 ， 该 代码 还 处 理 了 以 精度 0 对 值 0 进行 转 换 
的 特例 ， 在 这 种 情况 下 转换 结果 没有 输出 字符 。 


如 果 输 出 是 左 对 齐 的， 那么 Fmt_putd 现 在 可 以 输出 符号 ， 如 果 输 出 
是 右 对 齐 的 ， 需 要 前 部 补 0， 那 么 现在 可 以 输出 符号 和 填充 字符 ， 而 如 
果 输 出 是 右 对 齐 ， 需 要 在 前 部 添加 空格 ， 那 么 可 以 输出 填充 字符 和 符 
Be 








(emit 


str justified in 


width 167) += 
if (flags['-']) { 


(emit the sign 


168) 
} else if (flags['0O']) { 


(emit the sign 


168) 

pad(width - n, 'O'); 
} else { 

pad(width - n, ' '); 


(emit the sign 


168) 


(emit the sign 


168) = 
if (sign) 
put(sign, cl); 


Fmt_putd 最 后 可 以 输出 转换 结果 ， 这 可 能 包括 前 部 添加 的 0 〈 为 满 
足 精 度 要 求 ) ， 以 及 填充 字符 (如果 输出 是 左 对齐 的 〉: 


(emit 


str justified in 


width 167) += 
pad(precision - len, 'O'); 


(emit 


str[@..len-1] 159) 


if (flags['-']) 
pad(width - n, ' '); 


cvt_u 比 cvt_d 简 单 ， 但 它 可 以 使 用 Fmt_putd 输 出 转换 结果 的 所 有 机 
制 。 它 将 输出 下 一 个 无 符号 整数 的 十 进 制 表示 : 


(conversion functions 


159) += 

static void cvt_u(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned m = va_arg(*app, unsigned); 


(declare 


buf and 


p, initialize 


p 166) 


do 
*--p = m%10 + 'O'; 
while ((m /= 10) > 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


八进制 和 十 六 进 制 转换 类 似 于 无 符号 十 进 制 转换 ， 但 输出 的 基 不 同 ， 这 
又 简化 了 转换 的 过 程 。 


(conversion functions 


159) += 

static void cvt_o(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned m = va_arg(*app, unsigned); 


(declare 


buf and 


p, initialize 


p 166) 


do 
*--p = (m&0x7) + 'O'; 
while ((m >>= 3) != 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


static void cvt_x(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned m = va_arg(*app, unsigned); 


(declare 


buf and 


p, initialize 


p 166) 


(emit 


m in hexadecimal 


169) 


(emit 


m in hexadecimal 


169) = 
do 


*--p = "0123456789abcdef"[m&OxF ] ; 
while ((m >>= 4) != 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


cvt_p 将 指针 作为 十 六 进 制 数 输出 。 精 度 和 -以 外 的 所 有 标志 都 忽 
上 略 。 参 数 被 解释 为 指针 ， 它 首先 被 转换 为 unsigned ”long， 因 为 unsigned 
的 位 宽 可 能 不 足以 容纳 指针 凶 。 


(conversion functions 


159) += 

static void cvt_p(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned long m = (unsigned long)va_arg(*app, void*); 


(declare 


buf and 


p, initialize 


p 166) 


precision = INT_MIN; 


(emit 


m in hexadecimal 


169) 


cvt_c 是 与 %c 相 关 的 转换 函数 ， 它 格式 化 输出 一 个 字符 ， 左 对 齐 或 
右 对 齐 width 个 字符 。 它 忽略 精度 和 其 他 标志 。 


(conversion functions 


159) += 
static void cvt_c(int code, va_list *app, 


int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) { 


(normalize 


width 160) 
if (!flags['-']) 
pad(width - 1, ' '); 
put((unsigned char)va_arg(*app, int), cl); 
if ( flags['-']) 
pad(width - 1, ' '); 
} 


cvt_c 获 取 的 参数 是 一 个 整数 而 不 是 字符 ， 因 为 通过 参数 列表 的 可 变 部 分 
传递 的 字符 参数 ， 会 经 由 默认 的 参数 类 型 “提升 ?而 转换 为 整数 进行 传 
递 。cvt_c 将 由 此 得 到 的 整数 转换 unsigned char， 这 样 有 符号 、 无 符号 和 
普通 的 字符 都 能 够 以 同样 的 方式 输出 。 





将 浮 点 值 精确 地 转换 为 十 进 制 表示 的 过 程 ， 很 难以 与 机 器 无 关 的 方 
式 完 成 。 与 机 絮 相 关 的 算法 更 快速 且 准 确 ， 因 此 与 转换 限定 符 e、filg 
关联 的 转换 函数 使 用 了 下 述 代码 块 : 


(format a 


double argument into 


buf 170) = 

{ 
static char fmt[] = "%.dd?"; 
assert(precision <= 99); 
fmt[4] = code; 
fmt[3] = precision%10 + '0'; 
fmt[2] = (precision/10)%10 + 'O'; 
sprintf(buf, fmt, va_arg(*app, double)); 

} 


将 val 的 绝对 值 转换 到 buf 中 ， 接 下 来 输出 buf。 


浮 点 转换 限定 符 之 间 的 差别 在 于 ， 它 们 格式 化 浮 点 值 各 部 分 的 方式 
不 同 。 限 定 符 %.99f 的 输出 最 长 ， 可 能 需要 
DBL_MAX_10_EXP+1+1+99+1 个 字符 。DBL_MAX_10_EXP 和 
DBL_MAX 定 义 在 标准 头 文件 float.h 中 。DBL_MAX 是 可 以 表示 为 double 
的 值 中 最 大 的 值 ， 而 DBL_MAX_10_EXP 是 logj。DBL_MAX， 即 ， 它 是 
可 以 通过 double 表 示 的 最 大 的 十 进 制 指数 值 。 对 应 IEEE 754 格 式 下 的 64 
位 double 值 ，DBL_MAX 是 1.797693*10308  ， 而 DBL_MAX_10_EXP 是 
308。 对 fmt[2] 和 fmt[3] 的 赋值 假定 使 用 了 ASCII 码 。 





因而 ， 如 果 用 转换 限定 符 %.99f 转 换 DBL_MAX， 结 果 的 数位 情况 
是 : 小 数 点 之 前 可 能 有 DBL_MAX_10_EXP+1 个 数位 、 小 数 点 、 小 数 点 
之 后 可 能 有 99 个 数位 、 结 束 的 0 字符 。 将 精度 限制 为 99， 可 以 限制 用 于 
容纳 转换 结果 的 缓冲 区 的 大 小 ， 使 得 缓冲 区 的 最 大 长 度 在 编译 时 已 知 。 








其 他 转换 限定 符 %e 和 %g 的 转换 结果 ， 比 %f 的 结果 字符 数 要 少 。cvt_f 处 
理 所 有 三 种 格式 码 : 


(conversion functions 


159) += 
static void cvt_f(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


char buf [DBL_MAX_10_EXP+1+1+99+1]; 


if (precision < 0) 
precision = 6; 

if (code == 'g' && precision == 0) 
precision = 1; 


(format a 


double argument into 


buf 170) 
Fmt_putd(buf, strlen(buf), put, cl, flags, 


width, precision); 


14.3 扩展 阅读 


[Plauger，1992] 描 述 了 C 库 中 printf 一 族 输出 函数 的 实现 ， 包 括 字 符 
串 与 浮 点 值 之 间 双 同 转换 的 底层 代码 。 他 的 代码 还 说 明了 如 何 实现 其 他 
printf 风 格 的 格式 化 标志 和 格式 人 码 。 


[Hennessy and Patterson，1994] 一 书 的 4.8 节 描述 了 IEEE 754 浮 点 标 
准 ， 以 及 浮 点 加 法 和 乘法 的 实现 。[Goldberg，1991] 综 述 了 程序 员 最 关 
心 的 浮 点 运算 性 质 。 











浮 点 转换 已 经 实现 过 多 次 ， 但 转换 得 不 精确 或 速度 太 慢 ， 很 容易 使 
得 这 些 转换 变 为 拙劣 的 工作 。 对 这 些 转换 正确 性 的 判断 测试 是 : 如 果 给 
定 浮 点 值 x， 输 出 转换 由 x 生 成 一 个 字符 串 ， 输 入 转换 从 该 字符 串 重 新 创 
建 一 个 浮 点 值 Y， 那 么 要 求 xX 和 y“ 按 位 ?相等 〈 即 x 和 y 的 二 进 制 表示 是 完 
全 相同 的 ) 。[Clinger，1990] 描 述 了 如 何 精确 地 进行 输入 转换 ， 该 论文 
还 阐明 ， 对 某 些 x， 这 种 转换 需要 任意 精度 算术 的 文 持 。[Steele and 
White，1990] 描 述 了 如 何 进 行 精确 的 输出 转换 。 


14.4 ”习题 


14.1 Fmt_vstring 使 用 RESIZE 来 释放 它 返 回 的 字符 串 中 不 使 用 的 部 
分 。 设 计 一 种 方法 ， 仅 在 释放 空间 可 以 带 来 回报 时 进行 释放 操作 ， 即 被 
释放 的 空间 值得 上 释放 操作 的 代价 。 


14.2 ”使 用 [Steele and White，1990] 中 描述 的 算法 实现 e、f 和 g 转 
换 。 


14.3 ”编写 一 个 转换 函数 ， 从 下 一 个 整数 参数 获取 转换 限定 符 ， 并 
将 该 函数 关联 到 @。 例 如 ， 


Fmt_string("The offending value is %@\n", x.format, x.value); 
将 根据 x.format 中 的 格式 码 来 格式 化 x.value。 


14.4 ”编写 一 个 转换 函数 ， 将 一 个 Bit_T 中 的 元 素 以 整数 序列 的 形式 
输出 ， 其 中 连续 的 1 输出 为 范围 表示 ， 例 如 ，1 32-45 68 70-71. 





Ai 位 宽 是 体系 结构 /编译 器 高 度 相 关 的 ， 目 前 的 主流 编译 器 
gcc/icc/msvc 中 ，32 位 环境 下 ，sizeof (int) ==sizeof 
(long) ==sizeof (void*)==4，64 位 环境 下 ， 
sizeof (int)==sizeof (long)==4, sizeof (void*) ==sizeof (long 


long) ==8。 一 -一 译 者 注 


第 15 草 ”低级 字符 串 





C 语 言 本 来 并 非 处 理 字符 串 的 语言 ， 但 它 确 实 包含 了 操纵 字符 数组 
的 功能 ， 这 种 字符 数组 通常 称 作 字符 串 。 按 照 惯 例 ， 一 个 N 个 字符 的 字 
符 串 是 一 个 包含 N+1 字 符 的 数组 ， 最 后 一 个 字符 是 0 字符 ， 即 其 值 为 0。 





该 语言 本 吴 只 有 两 个 特性 有 助 于 处 理 字符 串 。 指 向 字符 的 指针 可 用 
于 饥 历 字符 数组 ， 而 字符 串 常 数 〈literal， 指 字面 常数 ， 本 章 中 均 译 为 
常数 ) 可 用 于 初始 化 字符 数组 。 例 如 ， 


char msg[] = "File not found"; 





是 对 以 下 语句 的 简写 : 


char msg[] = { 'F', 
Li aoe Wl OSY 'u', raty "di; '\@! y 


WEE, PAPE COE 的 类 型 是 int， 而 不 是 char， 这 也 解释 了 为 
何 sizeof 'F' 等 于 sizeof(int)。 


字符 串 常 数 还 可 以 代表 初始 化 为 给 定 字 符 串 的 字符 数组 。 例 如 ， 


char *msg = "File not found"; 


static char t376[] = "File not found"; 


char *msg = t376; 
其 中 t376 是 编译 器 生成 的 一 个 内 部 变量 名 。 


在 可 以 使 用 只 读数 组 名 称 的 任何 位 置 ， 都 可 以 使 用 字符 串 音 数 。 例 
如 ，Fmt 的 cvt_x 在 一 个 表达 式 中 使 用 了 一 个 字符 串 常数 : 


do 
*--p = "0123456789abcdef"[m&OxF ] ; 
while ((m >>= 4) != 0); 


该 赋值 等 效 于 下 述 更 详细 的 语句 : 


{ 
static char digits[] = "0123456789abcdef"; 
*p++ = digits[m&Oxf]; 

} 

这 里 digits 是 编译 器 生成 的 变量 名 。 


C 库 包含 了 一 组 操纵 0 结尾 字符 串 的 函数 。 这 些 函 数 定义 在 标准 头 文 
件 string.h 中 ， 可 以 复制 、 搜 索 、 扫 描 、 比 较 和 转换 字符 串 。 其 中 strcat 鼎 


char *strcat(char *dst, const char *src) 


该 函数 将 字符 串 src 退 加 到 dst 的 末端 ， 即 ， 它 将 src 字 符 串 中 包括 结尾 0 字 
符 在 内 的 所 有 字符 ， 复 制 到 dst 中 从 0 字符 开始 的 连续 内 存 区 域 中 。 


strcat 说 明 了 string.Dh 中 定义 的 各 个 函数 的 两 个 缺点 。 首 移 ， 客 户 程序 


必须 为 结果 分 配 空 间 ， 如 strcat 中 的 dst。 其 次 ， 也 是 最 重要 的 ， 所 有 这 
些 函 数 都 是 不 安全 的 ， 其 中 任何 一 个 函数 都 无 法 检查 结果 字符 串 是 否 包 
售 足 够 的 空间 。 如 有 果 dst 没 有 足够 的 空间 容纳 来 自 src 的 各 个 字符 ，strcat 
会 将 这 些 字符 淤 出 到 未 分 配 的 空间 或 用 于 其 他 用 途 的 空间 中 。 其 中 一 些 
男 数 ， 如 strmncat， 有 额外 的 参数 来 限制 复制 到 结果 的 字符 数 ， 这 有 助 于 
防止 此 类 错误 ， 但 分 配 错误 仍然 可 能 发 生 。 








本 章 描 述 的 Str 接 口中 的 函数 ， 可 以 避免 这 些 缺 点 ， 并 提供 了 一 个 方 
便 的 方法 来 操作 其 字符 串 参 数 的 子 串 。 这 些 函 数 比 string.h 中 的 那些 更 为 
安全 ， 因 为 大 部 分 Str 函 数 会 为 其 结果 分 配 空间 。 与 这 些 分 配 操作 相关 的 
成 本 ， 就 是 为 安全 性 付出 的 代价 。 


通常 ， 这 些 分 配 操 作 时 无 论 如 何 都 需要 进行 的 ， 因 为 当 string.h 函 数 
的 结果 的 长 度 取决 于 计算 的 结果 时 ， 客 户 程 序 必须 为 结果 分 配 大 小 适当 
的 空间 。 类 似 于 string.h 函 数 ，Str 函 数 的 客户 程序 仍然 必须 释放 返回 的 结 
果 。 下 一 章 描 述 的 Text 接 口 会 导出 男 一 组 字符 串 处 理 函 数 ， 可 以 名人 狗 Str 
函数 的 一 些 分 配 开 销 。 


15.1 接口 


(str.h 


) = 
#ifndef STR_INCLUDED 
#define STR_INCLUDED 


#include <stdarg.h> 


(exported functions 


174) 


#undef T 


#endif 


Str 接 口中 的 函数 的 所 有 字符 串 参 数 ， 都 通过 一 个 指 癌 0 结尾 字符 数 
组 的 指针 和 该 数组 中 的 位 置 给 出 。 类 似 于 Ring 中 的 位 置 ， 字 符 串 位 置 标 
识 了 各 个 字符 之 间 的 位 置 ， 以 及 最 后 一 个 非 0 字 符 之 后 的 位 置 。 正 数位 
置 指定 了 从 字符 串 左 端 起 的 位 置 ， 位 置 1 是 第 一 个 字符 左 侧 的 位 置 。 非 
正 数 位 置 指 定 了 从 字符 串 右 侧 起 的 位 置 ， 位 置 0 是 最 后 一 个 字符 右 侧 的 





位 置 。 例 如 ， 图 15-1 给 出 了 字符 串 Interface 中 的 各 个 位 置 。 


图 15-1 lnterface 中 各 个 字符 的 位 置 


字符 串 s 中 的 两 个 位 置 I 和 j 指 定 了 两 个 位 置 之 间 的 子 串 ， 记 作 s[i:j]。 
如 果 s 指 向 字符 串 Interface， 那 么 s[-4:0] 是 子 串 face。 这 些 位 置 可 以 按 任 
意 顺 序 给 出 : s[0:-4] 同 样 指定 了 子 串 face。 子 串 可 以 为 NULL，s[3:3] 和 
s[3:-7] 都 指定 了 Interface 中 n 和 t 之 则 的 NULL 子 串 。 对 任何 有 效 位 置 i 
s[i:i+1] 总 是 i 右 侧 的 字符 (最 右 侧 的 位 置 除外 〉。 








字符 索引 是 另 一 种 指定 子 串 的 方法 ， 这 种 方法 看 起 来 更 为 自然 ， 但 
却 有 不 利之 处 。 在 用 索引 指定 子 串 时 ， 顺 序 很 重要 。 例 如 ， 字 符 串 
Interface 中 索引 值 从 0 到 9( 含 )。 如 果 用 两 个 索引 指定 子 串 ， 子 串 从 第 
一 个 索引 之 后 开始 、 在 第 二 个 索引 之 前 结束 ， 那 么 s[1..6] 指 定 了 子 串 
terf。 但 该 约定 必须 允许 使 用 0 字符 的 索引 ， 才 能 用 s[4..9] 指 定子 串 face， 
而 且 无 法 指定 字符 串 起 点 处 的 NULL 子 串 。 改 变 该 约定 ， 使 得 子 串 结束 
于 第 二 个 索引 之 后 ， 那 就 无 法 指定 NULL 子 串 。 其 他 使 用 负数 索引 的 约 
定 也 可 以 使 用 ， 但 与 这 里 的 位 置 约定 相 比 ， 更 显 笨拙 。 山 








位 置 比 字 符 索 引 要 好 ， 因 为 它们 避免 了 令 人 迷惑 的 边界 情况 。 而 且 
非 正 数位 置 可 以 在 不 知道 字符 串 长 度 的 情况 下 来 访问 字符 串 的 尾部 ”所 


Str 接 口 导 出 的 函数 可 以 创建 并 返回 0 结尾 字符 串 ， 且 返回 有 关 其 中 
字符 串 和 位 置 的 信息 。 创 建 字符 串 的 函数 是 : 


‘exported functions 


174) = 

extern char *Str_sub(const char *s, int i, int j); 

extern char *Str_dup(const char *s, int i, int j, int n); 

extern char *Str_cat(const char *si, int il, int j1, 
const char *s2, int i2, int j2); 

extern char *Str_catv(const char *s, ...); 

extern char *Str_reverse(const char *s, int i, int j); 

extern char *Str_map(const char *s, int i, int j, 


const char *from, const char *to); 


所 有 这 些 函 数 都 会 为 结果 分 配 空间 ， 它 们 都 可 能 引发 Mem_Failed 异 常 。 
同 该 接口 中 任何 函数 传递 NULL 字 符 串 指针 都 是 已 检查 的 运行 时 错误 
(下 文 对 Str_catv 和 Str_map 详 述 的 情况 除外 ) 。 








Str_sub 返 回 s[i:jj]， 它 是 s 中 位 于 位 置 i 和 j 之 间 的 子 串 。 例 如 ， 以 下 调 
用 


Str_sub("Interface", 6, 10) 


Str_sub("Interface", 6, 0) 


Str_sub("Interface", -4, 10) 


Str_sub("Interface", -4, 0) 


都 返回 face。 位 置 可 以 按 任 意 顺 序 给 出 。 回 该 接口 中 任何 函数 传递 的 i 和 
j 未 能 指定 s 中 的 一 个 子囊 ， 都 是 已 检查 的 运行 时 错误 。 


Str_dup 返 回 一 个 字符 串 ， 该 字符 串 是 s[i:j] 的 n 个 副本 。 传 递 负 的 n 
值 ， 是 一 个 已 检查 的 运行 时 错误 。Str_dup 通 常用 于 复制 一 个 字符 串 ， 例 
Qu, Str_dup("Interface", 1, 0, 1 返回 Interface 的 一 个 副本 。 请 注意 ， 使 用 
位 置 1 和 0， 即 指定 了 Interface 整 个 字符 串 。 








Str_cat 返 回 s1[i1:j1] 和 s2[i2:j2] 两 个 子 串 连 接 构 成 的 字符 串 ， 即 ， 访 
字符 串 首先 包含 s1[i1:j1] 中 的 所 有 字符 ， 后 接 s2[i2:j2] 中 的 所 有 字符 。 
Str_catv 与 之 类 似 ， 其 参数 为 0 或 多 个 三 元 组 ， 每 个 三 元 组 指定 了 一 个 字 
符 串 和 两 个 位 置 ， 函 数 返 回 所 有 这 些 子 串 连 接 构成 的 字符 串 。 参 数列 表 
结束 于 NULL 指 针 参 数 。 例 如 ， 








Str_catv("Interface", -4, ©, " plant", 1, ©, NULL) 


返回 字符 串 face plant. 





Str_reverse 返 回 s[ij] 中 字符 以 与 其 出 现在 s 中 的 反 序 所 构成 的 字符 
HF 


Str_map 返 回 s[ij] 中 字符 按照 fom 和 to 映射 得 到 的 字符 所 构成 的 字符 
串 。 对 s[i:j] 中 的 每 个 字符 来 说 ， 如 果 其 出 现在 from 中 ， 则 映射 为 to 中 的 
对 应 字符 。 不 出 现在 from 中 的 字符 映射 到 本 里。 例如 ， 


Str_map(s, 1, 0, "ABCDEFGHIJKLMNOPQRSTUVWXYZ", 


"abcdefghijkimnopqrstuvwxyz" ) 





会 返回 s 的 一 个 副本 ， 其 中 的 大 写字 母 痢 被 蔡 换 为 小 写 。 


如 果 from 和 to 都 是 NULL， 则 使 用 最 近 一 次 调用 Str_map 时 指定 的 映 
射 。 如 果 s 是 NULL， 则 忽略 i 和 jj，from 和 和 to 只 用 于 建立 默认 映射 ， 
Str_map 将 返回 NULL。 





以 下 情况 是 已 检查 的 运行 时 错误 : from 和 to 中 有 且 仅 有 一 个 为 
NULL， 非 NULL 的 from 和 to 字符 串 长 上 度 不 同 ，s、from 和 和 to 都 是 NULL， 
第 一 次 调用 Str_map 时 from 和 to 都 是 NULL 。 


Str 接 口中 其 余 的 函数 ， 用 于 返回 字符 串 中 有 关 字 符 串 或 位 置 的 信 
Kh, IRE ee BAN AS a AC ae Ia] o 


(exported functions 


174) += 

extern int Str_pos(const char *s, int i); 

extern int Str_len(const char *s, int i, int j); 
extern int Str_cmp(const char *si, int il, int j1, 


const char *s2, int i2, int j2); 


Str_pos 返 回 对 应 于 s[i 的 正 数位 置 。 正 数位 置 总 是 可 以 通过 减 1 转 
换 为 索引 ， 因 此 在 再 要 索引 时 通常 使 用 Str_pos。 例 如 ， 如 果 s 指 癌 字 符 


= Interface, 


printf("%s\n", &s[Str_pos(s, -4)-1]) 


将 输出 face。 
Str_len 返 回 s[ij] 中 字符 的 数目 。 


Str_cmp 根 据 s1[i1:j1] 与 s2[i2:j2] 的 比较 结果 ， 对 小 于 、 等 于 、 大 于 三 
种 情形 分 别 返 回 负 值 、0、 正 值 。 





以 下 函数 搜索 字符 串 ， 查 找 字 符 及 其 他 字符 串 。 在 搜索 成 功 时 ， 
些 函 数 返回 反映 搜索 结果 的 正 数 位 置 ， 在 搜索 失败 时 ， 它 们 返回 0。 
数 名 包含 _r 时 ， 搜 索 从 其 参数 字符 串 的 右 侧 开始 ， 其 他 函数 搜索 时 从 磊 
侧 开始 。 


(exported functions 


174) += 
extern int Str_chr (const char *s, int i, int j, int c); 
extern int Str_rchr (const char *s, int i, int j, int c); 
extern int Str_upto (const char *s, int i, int j, 
const char *set); 
extern int Str_rupto(const char *s, int i, int j, 
const char *set); 
extern int Str_find (const char *s, int i, int j, 
const char *str); 
extern int Str_rfind(const char *s, int i, int j, 


const char *str); 


Str_chr 和 Str_rchr 分 别 从 s[i:j] 的 最 左 侧 和 最 右 侧 开始 搜索 字符 ce， 并 返回 s 
中 该 字符 之 前 的 位 置 ， 如 果 s[i:j] 不 包含 c 则 返回 0。 


Str_upto 和 Str_rupto 分 别 从 s[i:j] 的 最 左 侧 和 最 右 侧 开始 搜索 set 中 任 
意 字 符 ， 并 返回 s 中 该 字符 之 前 的 位 置 ， 如 果 s[ij] 不 包含 set 中 任意 字 
符 ， 那 么 将 返回 0。 回 这 些 函 数 传递 的 set 为 NULL， 则 造成 已 检查 的 运 
行 时 错误 。 


Str_find 和 Str_rfind 分 别 从 s[i:j] 的 最 左 侧 和 最 右 侧 开始 搜索 字符 串 
str， 并 返回 s 中 该 子 串 之 前 的 位 置 ， 如 果 s[i:j] 不 包含 str 则 返回 0。 同 这 些 
函数 传递 的 str 为 NULL， 则 造成 已 检查 的 运行 时 错误 。 





以 下 函数 


‘exported functions 


174) += 

extern int Str_any(const char *s, int i, 
const char *set); 

extern int Str_many(const char *s, int i, int j, 
const char *set); 

extern int Str_rmany(const char *s, int i, int j, 
const char *set); 

extern int Str_match(const char *s, int i, int j, 
const char *str); 


extern int Str_rmatch(const char *s, int i, int j, 


const char *str); 
将 遍历 子 串 ， 它 们 返回 匹配 的 子 串 之 后 或 之 前 的 正 数位 置 。 


如 果 字 符 s[i:i+1] 出 现在 set 中 ，Str_any 返 回 s 中 该 字符 之 后 的 正 数 位 
A, AREO. 








Str_many 从 s[i:j] 开 头 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 序 
列 ， 并 返回 s 中 该 序列 之 后 的 正 数 位 置 ， 如 果 s[i:j] 并 不 从 set 中 的 某 个 字 
符 开始 ， 那 么 将 返回 0。Str_rmany 从 s[i:j] 末 端 查 找 set 中 一 个 或 多 个 字符 
构成 的 连续 序列 ， 并 返回 s 中 该 序列 之 前 的 正 数 位 置 ， 如 果 s[i:j] 并 不 结 
束 于 set 中 的 某 个 字符 ， 将 返回 0。 传 递 给 Str_any、Str_many 或 Str_rmany 
的 set 为 NULL， 是 已 检查 的 运行 时 错误 。 











Str_match 从 s[i:j] 开 头 开始 查找 str， 并 返回 s 中 该 子 串 之 后 的 正 数 位 
置 ， 如 果 s[i:j] 起 始 处 不 是 str， 则 返回 0。Str_rmatch 从 s[i:j] 末 尾 来 查找 
str， 并 返回 s 中 该 子 串 之 前 的 正 数 位 置 ， 如 果 s[i:j] 不 结束 于 str， 则 返回 
0。 问 Str_match 或 Str_rmatch 传 递 的 str 为 NULL， 是 已 检查 的 运行 时 错 


O 


IRo 





Str_ rchr、Str_rupto 和 Str_rfind 从 其 参数 字符 串 的 右 端 开 始 搜索 ， 但 
返回 其 搜索 到 的 字符 /字符 串 左 侧 的 位 置 。 例 如 ， 以 下 调用 


Str_find ("The rain in Spain", 1, 0, "rain") 


Str_rfind("The rain in Spain", 1, 0, "rain") 


都 返回 5， 这 是 因为 rain 在 其 第 一 个 参数 中 只 出 现 一 次 。 以 下 调用 


Str_find ("The rain in Spain", 1, ©, "in") 


Str_rfind("The rain in Spain", 1, 0, "in") 


分 别 返 回 7 和 16， 因 为 in 在 第 一 个 参数 中 出 现 了 三 次 。 





Str_many 和 Str_match 在 字符 串 中 从 左 到 右 壳 历 ， 并 返回 其 得 找到 的 
字符 之 后 的 位 置 。Str_rmany 和 Str_rmatch 从 右 到 左 遍 历 ， 它 们 返回 查找 
到 的 字符 之 前 的 位 置 。 例 如 ， 


Str_sub(name, 1, Str_rmany(name, 1, 0, " \t")) 





将 返回 name 的 一 个 副本 ， 并 去 除 尾部 的 空格 和 制 表 符 《如 果 有 的 话 ) 。 
函数 basename 给 出 对 这 种 惯例 的 男 一 种 典型 用 法 。basename 接 受 一 个 
Unix 的 路 径 名 ， 返 回去 除 目录 信息 和 特定 后 级 的 文件 名 ， 如 下 例 所 示 。 





basename("/usr/jenny/main.c", 1, 0, ".c") main 
basename("../src/main.c", a ge 0 - SEN main.c 
basename("main.c", 1, ©, "c") main 
basename( "main.c", 1, 0, ".obj") main.c 
basename("examples/wfmain.c", 1, 0, ".main.c") wf 


basename 使 用 Str_rchr 来 查找 最 右 侧 的 斜 线 ， 使 用 Str_rmatch 来 定位 后 


又 
By o 


char *basename(char *path, int i, int j, 
const char *suffix) { 
i = Str_rchr(path, i, j, '/'); 
j = Str_rmatch(path, i + 1, ©, suffix); 


return Str_dup(path, i+ 1, j, 1); 


Str_rchriY ik EAMES WARE BUR, ee A MR eZ A A i 


置 ， 人 否则 为 0。 在 这 两 种 情况 下 ， 文 件 名 都 起 始 于 位 置 i+1。Str_match 会 
检查 文件 名 ， 并 返回 后 缀 之 前 或 文件 名 之 后 的 位 置 。 同 样 ， 在 这 两 种 情 
况 下 ，j 都 设置 为 文件 名 之 后 的 位 置 。str_dup 返 回 path 中 i+1 和 j 之 间 的 子 
FB 。 





以 下 函数 


‘exported functions 


174) += 
extern void Str_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


古 一 个 转换 函数 ， 可 以 与 Fmt 接 口中 的 格式 化 函数 协同 使 用 ， 用 于 格式 
化 子 串 。 它 消耗 三 个 参数 ， 一 个 字符 串 指 针 和 两 个 位 置 ， 它 按照 Fmt 
中 %s 指 定 的 风格 来 格式 化 子囊 。 字 符 串 指针 、app 或 flags 是 NULL， 则 
造成 已 检查 的 运行 时 错误 。 


例如 ， 如 果 Str_fmt 通 过 下 列 调用 关联 到 格式 码 S: 
Fmt_register('S', Str_fmt) 
那么 
Fmt_print("%10S\n", "Interface", -4, 0) 


将 输出 face, XH 表示 空格 。 


15.2 ”例子 : 输出 标识 符 


下 面 给 出 的 例子 程序 可 以 输出 其 输入 中 的 C 语 言 关键 字 和 标识 符 ， 
该 程序 说 明了 Str_fmt 的 用 法 ， 以 及 检查 字符 串 是 否 包含 菜 些 字符 或 子 串 
的 其 他 函数 的 用 法 。 








(ids.c 


ys 
#include <stdlib.h> 
#include <stdio.h> 
#include "fmt.h" 


#include "str.h" 


int main(int argc, char *argv[]) { 
char line[512]; 
static char set[] = "0123456789_" 
"abcdefghijkimnopqrstuvwxyz" 


"ABCDEFGHI JKLMNOPQRSTUVWXYZ" ; 


Fmt_register('S', Str_fmt); 
while (fgets(line, sizeof line, stdin) != NULL) { 


int i = 1, j; 


while ((i = Str_upto(line, i, ©, &set[10])) > O){ 
j = Str_many(line, i, 0, set); 
Fmt_print("%S\n", line, i, j); 


i = j; 


} 
return EXIT_SUCCESS; 


Í 


内 层 的 while 循 环 扫 摘 line[i:0] 碍 找 下 一 个 标识 符 ，i 从 1 开始 。Str_upto 返 
四 line [0] 下 一 个 下 划 线 或 字母 在 line 中 的 位 置 ， 该 位 置 被 赋值 给 1。 在 
下 划 线 或 字母 之 后 ， 连 续 的 数字 、 下 划 线 和 字母 都 属于 同一 标识 符 ， 而 
Str_many 将 返回 该 标识 符 之 后 的 位 置 。 因 而 ，i 和 j 标 识 了 扫描 到 的 下 一 
个 标识 符 ，Fmt_print 用 Str_fmt 输 出 该 标识 符 ， 它 关联 到 格式 码 S。 将 j 赋 
值 给 1j， 使 得 while 循 环 的 下 一 次 迭代 碍 找 下 一 个 标识 符 。 在 line 包 含 上 面 


的 main 函 数 声 明 时 ， 传 递 给 FEmt_print 的 1 利 j 如 图 15-2 所 示 。 











j 4 9 13 18 24 30 
int main(int argc, char *argv []) { 
i f t ho 14 20 6 


图 15-2 各 字符 的 位 置 





该 程序 中 没有 内 存 分 配 。 在 此 类 应 用 程序 中 使 用 位 置 通 常 可 以 避免 
内 存 分 配 。 


15.3 ”实现 


(strc 


Y= 
#include <string.h> 
#include <limits.h> 
#include "assert.h" 
#include "fmt.h" 
#include "str.h" 


#include "mem.h" 


(macros 


179) 


(functions 


180) 








实现 必须 处 理 位 置 与 索引 之 间 的 双 辐 转换 ， 因 为 函数 使 用 索引 来 访 
问 实 际 的 字符 。 正 数位 置 i 右 侧 字 符 的 索引 是 i- 1。 负 数位 置 i 右 侧 字 符 的 
索引 是 i + len，len 是 字符 串 中 字符 的 数目 。 下 列 宏 


(macros 


179) = 


#define idx(i, len 


) (i 


) <= 0? (i 


) + (len 


) - 1) 
封闭 了 以 上 的 定义 ; 给 出 长 度 为 len 的 字符 串 中 的 位 置 1，idx(i，len) 就 是 i 
右 侧 字 符 的 索引 。 


Str 接 口中 的 函数 将 其 位 置 转换 为 索引 ， 然 后 使 用 索引 访问 字符 串 。 
convert 宏 封装 了 以 下 转换 中 的 各 个 步 又: 


(macros 


179) += 


#define convert(s, i, j 


) do { int len; \ 


assert(s 


); len = strlen(s 


); \ 


= idx(i 


, len); j 


= idx(j 


, len); \ 
if (i 


> 


) { int t = 


=t; }\ 


assert(i 


>= 0 && j 


<= len); } while (0) 





位 置 i 和 j 被 转换 为 从 0 到 s 的 长 度 之 间 的 索引 值 ， 如 有 必要 会 交换 i 和 j， 使 


得 的 值 不 超过 j。 结 尾 处 的 断言 确认 了 i 和 j 是 s 中 有 效 的 索引 位 置 。 在 转 
换 后 ，j - i 即 为 指定 子 串 的 长 度 。 


Str_sub 说 明了 convert 的 典型 用 法 。 


(functions 


180) = 


char *Str_sub(const char *s, int i, int j) { 


char *str, *p; 


convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (i < j) 
*p++ = s[itt+]; 
“p= '\0'; 
return str; 


} 


指定 子 串 末端 的 位 置 被 转换 为 子 串 之 后 下 一 个 字符 的 索引 值 〈 可 能 是 结 
尾 0 字 符 的 索引 值 )。 因 而 ，j-i 即 为 目标 子 串 的 长 度 ， 加 上 0 字符 在 内 ， 
需要 j-i+1 个 字 节 来 存储 该 子 串 。 





Str_sub 和 其 他 一 些 Str 函 数 都 可 以 使 用 标准 C 库 中 的 字符 串 例 程 来 纺 
写 ， 如 strmncpy， 人 参见 习题 15.2。 


15.3.1 FIFE PRIE 


Str_dup 为 s[i:j] 的 n 个 副本 加 上 一 个 结尾 0 字符 分 配 空间 ， 然 后 将 s[i:j] 
复制 n 次 ， 当 然 前 提 是 s[i:j] 子 串 非 空 。 


(functions 


180) += 
char *Str_dup(const char *s, int i, int j, int n) { 
int k; 


char *str, *p; 


assert(n >= 0); 
convert(s, i, j); 
p = str = ALLOC(n*(j - i) + 1); 
if (j =- >.0) 
while (n-- > 0) 
for (k = i; k < j; k++) 
*p++ = s[k]; 
*p = 0 


return str; 








Str_reverse 类 似 Str_sub， 但 它 反 回 复制 字符 : 


(functions 


180) += 
char *Str_reverse(const char *s, int i, int j) { 


char *str, *p; 


convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (j > i) 
‘ptt = s[--J]} 
*p iO 


return str; 


Str_cat 可 以 调用 Str_catv 实 现 ， 但 它 使 用 得 比较 多 ， 值 得 给 出 一 个 定 
制 的 实现 : 


(functions 


180) += 
char *Str_cat(const char *s1, int i1, int ji, 
const char *s2, int 12, int j2) { 


char *str, *p; 


convert(si, il, j1); 
convert(s2, i2, j2); 
p = str = ALLOC(j1 - i1 + j2 - i2 + 1); 
while (i1 < j1) 
*p++ = s1[i1++]; 
while (i2 < j2) 
*p++ = s2[i2++]; 
*p = '\0'， 


return str; 


Str_catv 稍 复杂 一 点 ， 因 为 它 必须 对 可 变数 目的 参数 扫描 两 裔 : 


(functions 


180) += 

char *Str_catv(const char *s, ...) { 
char *str, *p; 
const char *save = sS; 
int i, j, len = 0; 


va_list ap; 


va_start(ap, s); 


(len — the length of the result 


182) 
va_end(ap); 
p = str = ALLOC(len + 1); 
S = save; 
va_start(ap, s); 


(copy each 


s[i:j] to 


p, increment 


p 182) 
va_end(ap); 
*p = '\O'; 


return str; 


第 一 遍 将 各 个 参数 子 串 的 长 度 求 和 ， 以 算得 结果 的 长 度 。 在 为 结果 字符 


串 分 配 空 间 之 后 ， 第 二 遍 扫 描 将 各 个 三 元 组 给 出 的 子 串 附加 到 结果 字符 
串 上 。 第 一 遍 将 位 置 转换 为 索引 来 计算 每 个 子 串 的 长 度 ， 所 有 子 趾 长 度 
的 总 和 即 为 结果 字符 串 的 长 度 : 


(len — the length of the result 


182) = 
while (s) { 
1 = va_arg(ap, int); 
j = va_arg(ap, int); 
convert(s, i, j); 
len += j - i; 
s = va_arg(ap, const char *); 
} 


第 二 避 的 过 程 几乎 相同 : 唯一 的 差别 是 ， 对 len 的 赋值 操作 替换 为 复制 
TEREA: 


(copy each 


s[i:j] to 


p, increment 


p 182) = 
while (s) { 
1 = va_arg(ap, int); 
j = va_arg(ap, int); 
convert(s, i, j); 
while (i < j) 
*p++ = s[i++]; 


s = va_arg(ap, const char *); 


Str_map 建 立 一 个 数组 map， 按 from 和 to 指定 的 映射 ， 字 符 c 即 映射 
到 map[c。 因 而 ， 将 s[ij] 中 的 字符 作为 map 的 索引 ， 即 可 得 到 映射 结 
果 ， 而 后 将 其 复制 到 一 个 新 字符 串 中 : 


‘map 


s[i:j] into a new string 


182) = 


char *str, *p; 
convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (i < j) 
*p++ = map[(unsigned char)s[i++]]; 


*p 二 "\O'; 


上 述 代 码 中 的 强制 转换 ， 复 制 值 大 于 127 的 字符 被 < 符号 扩展 ?为 负 的 索 
引 值 。 


建立 map 时 ， 首 先 将 map 初 始 化 ， 使 得 map[cl 等 于 c， 即 每 个 字符 都 
映射 到 本 身 。 接 下 来 ， 使 用 from 和 to 来 修改 map， 将 from 中 的 字符 作为 
map 的 索引 值 ， 而 将 to 中 的 对 应 字符 作为 映射 值 : 


(rebuild 


map 182) = 
unsigned C; 
for (c = 0; c < sizeof map; c++) 
map[c] = Cc; 
while (*from && *to) 
map[(unsigned char)*from++] = *to++; 


assert(*from == 0 && *to == 0); 








上 述 代码 中 的 断言 ， 实 现 了 “from 和 to 长 度 必须 相等 ”的 已 检查 的 运行 时 
错误 。 


Str_map 在 from 和 和 to 都 不 是 NULL 时 使 用 该 代码 块 ， 在 s 不 是 NULL 时 
使 用 <map s[i:j] into a new string 182>: 


(functions 


182) += 
char *Str_map(const char *s, int i, int j, 
const char *from, const char *to) { 


static char map[256] = { © }; 


if (from && to) { 


(rebuild 
map 182) 
} else { 
assert(from == NULL && to == NULL && s); 
assert(map['a']); 
} 
if (s) { 


(map 


s[i:j] into a new string 


182) 
return str; 
} else 
return NULL; 
} 


最 初 ，map 的 所 有 元 素 都 是 0(。 在 to 中 没有 办 法 指定 一 个 0 字符 ， 因 此 断 
言 map['a"] 非 零 ， 即 实现 了 “第 一 次 调用 Str_map 时 from 和 to 指针 不 能 大 
NULL” 的 已 检查 的 运行 时 错误 。 








索引 i 对 应 的 字符 左 侧 的 正 数位 置 是 i + 1。Str_pos 使 用 该 性 质 ， 来 返 
回 对 应 于 s 中 任意 位 置 i 的 正 数 位 置 。 它 首先 将 ji 转换 为 索引 ， 确 认 索 引 的 
有 效 性 ， 而 后 将 其 转换 回 正 数 位 置 并 返回 。 


(functions 


180) += 
int Str_pos(const char *s, int i) { 


int len; 


assert(s); 


len = strlen(s); 


i = idx(i, len); 
assert(i >= 0 && i <= len); 


return i+ 1; 


Str_len 返 回 子 串 s[ij] 的 长 度 ， 其 做 法 是 将 i 和 j 转 换 为 索引 ， 并 返回 
两 个 索引 之 间 字 符 的 数目 : 





(functions 


180) += 


int Str_len(const char *s, int i, int j) { 
convert(s, i, j); 


return j - i; 


Str_cmp 的 实现 简明 但 乏味 ， 因 为 它 涉及 菏 些 短 记 工作 : 


(functions 


180) += 
int Str_cmp(const char *si, int i1, int j1, 
const char *s2, int 12, int j2) { 


(string compare 


184) 


StrempH cil Ml IRAsl PAA Sl, iM RR As2 Hi BI: 


(string compare 


184) = 
convert(si, i1, j1); 


convert(s2, i2, j2); 


接 下 来 ， 调 整 sS1 和 s2 使 之 分 别 指 问 相应 子 串 的 第 一 个 字符 。 


(string compare 


184) += 
si += 11; 


$2 += 12; 


两 个 子 串 s1[i1:j1] 和 s2[i2:j2] 中 的 较 短 者 ， 将 决定 需要 比较 多 少 个 字符 ， 
实际 的 比较 由 stmcmp 完 成 。 


(string compare 


184) += 

if (j1 - i1 < j2 - i2) { 
int cond = strncmp(s1, s2, j1 - i1); 
return cond == © ? -1 : cond; 

} else if (j1 - i1 > j2 - 12) { 
int cond = strncmp(s1, s2, j2 - i2); 
return cond == © ? +1 : cond; 

} else 


return strncmp(s1, s2, j1 - i1); 


在 s1[i1:j1] 比 s2[i2:j2] 短 且 stmcmp 返 回 0 时 ，s1[i1:j1] 相 当 于 s2[i2:j2] 的 前 
级 ， 因 而 小 于 s2[i2:j2]。 第 二 个 让 语句 处 理 相 反 的 情况 ，else 子 句 处 理 两 
个 子 串 长 度 相 等 的 情况 。 


C 语 言 标 准 规定 ，stmcmp (和 memcmp〉 必须 将 sl 和 s2 中 的 字符 作 
为 无 符号 字符 处 理 ， 这 样 ， 在 sl 或 2 中 出 现 大 于 127 的 字符 值 时 ， 函 数 
可 以 给 出 良 定 义 的 结果 。 例 如 ，strncmp(N344"， "127", 1) 必 须 返 回 正 
值 ， 但 stmncmp 的 某 些 实现 不 正确 地 比较 了 “普通 ”字符 ， 普 通 字符 可 能 是 
有 符号 的 ， 有 可 能 是 无 符号 的 。 对 于 这 些 实现 ，strmmcmp(\344"，"\127", 
1) 可 能 返回 负 值 。memcmp 的 某 些 实现 有 同样 的 错误 。 





15.3.2 ”分 析 字 符 串 





剩 下 的 函数 会 从 左 到 右 〈 或 从 右 到 左 ) WATE, ARTE RHA 
字符 串 。 这 些 函 数 在 搜索 成 功 时 返回 正 数位 置 ， 人 否则 返回 0。Str_chr 很 
有 代表 性 : 





(functions 


180) += 
int Str_chr(const char *s, int i, int j, int c) { 
convert(s, i, j); 
for ( ; i< j; i++) 
if (s[i] == c) 
return i+ 1; 
return 0; 


} 


Str_rchr 是 类 似 的 ， 但 它 从 s[i:j] 的 右 侧 开始 搜索 : 


(functions 


180) += 
int Str_rchr(const char *s, int i, int j, int c) { 
convert(s, i, j); 
while (j > i) 
if (s[--j] == c) 


return j + 1; 


return 0; 


IX PAS PR UAB I El s[i] A Frc HY BLA A A AY IE Co 


Str_upto 和 Str_rupto 类 似 于 Str_chr 和 Str_rchr， 只 是 它们 会 在 s[i:j] 中 
查找 某 个 集合 中 的 任意 字符 : 





(functions 


180) += 
int Str_upto(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
for ( ; i< j; i++) 
if (strchr(set, s[i])) 
return i + 1; 


return 0; 


int Str_rupto(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
while (j > i) 


if (strchr(set, s[--j])) 


return j + 1; 


return 0; 





Str_find 在 s[i5] 中 搜索 字符 串 。 其 实现 将 搜索 长 度 为 0 或 1 的 字符 串 作 
为 特例 处 理 。 


(functions 


180) += 
int Str_find(const char *s, int i, int j, const char *str) { 


int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if (len == 0) 
return i+ 1; 
else if (len == 1) { 
for ( ; i< j; i++) 
if (s[i] == *str) 
return i+ 1; 
} else 
for ( ; i + len <= j; itt) 


if ( (s[i...] = str[O..len-1] 186) ) 


return i + 1; 


return 0; 


如 果 str 没 有 字符 ， 搜 索 总 是 成 功 。 如 果 str 只 有 一 个 字符 ，Str_find 等 效 
于 Str_chr。 在 一 般 情况 中 ，Str_find 在 s[i:j] 中 查找 st， 但 要 特别 小 心 ， 不 
能 接受 超出 子 串 末 尾 的 匹配 ; 


(s[i...] = str[@..len-1] 186) = 


(strncmp(&s[i], str, len) == 0) 





Str_rfind 同 样 需要 处 理 这 三 种 情形 ， 但 必须 反 回 比较 字符 串 。 


(functions 


180) += 
int Str_rfind(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s, i, j); 

assert(str); 

len = strlen(str); 

if (len == 0) 
return j + 1; 


else if (len == 1) { 


while (j > i) 
if (s[--j] == *str) 
return j + 1; 
} else 
for ( ; j - len >= i; j--) 
if (strncemp(&s[j-len], str, len) == 0) 
return j - len + 1; 


return 0; 


Str_rfind 不 能 接受 超出 子 串 起 点 的 匹配 。 


Str_any 和 相关 函数 并 不 搜索 字符 或 字符 串 ， 如 果 在 所 述 子 串 的 开头 
或 结尾 发 现 指定 的 模式 ， 这 些 函 数 将 跳 过 模式 字符 或 字符 串 。 如 果 
s[i:i+1] 是 set 中 的 一 个 字符 ，Str_any 将 返回 Str_pos(s, i)+1: 


(functions 


180) += 


int Str_any(const char *s, int i, const char *set) { 


int len; 


assert(s); 
assert(set); 
len = strlen(s); 


i = idx(i, len); 


assert(i >= 0 && i <= len); 
if (1 < len && strchr(set, s[i])) 
return i + 2; 


return 0; 


WRI AM, RI + 1 将 转换 为 正 数 位 置 〈 再 加 上 1) ， 这 是 Str_any 
返回 i+ 2 的 原因 。 





Str_many 跨 过 出 现在 s[i:j] 开 头 、 完 全 由 set 中 一 个 或 多 个 字符 构成 的 
Fe: 


(functions 


180) += 
int Str_many(const char *s, int i, int j, const char *set) { 

assert(set); 

convert(s, i, j); 

if (i < j && strchr(set, s[i])) { 

do 
i++; 

while (i < j && strchr(set, s[i])); 
return i + 1; 


} 


return 0; 





Str_rmany 向 后 跳 过 出 现在 s[i:j] 末 尾 、 完 全 由 set 中 一 个 或 多 个 字符 
构成 的 子 串 : 


(functions 


180) += 
int Str_rmany(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
if (j > i && strchr(set, s[j-1])) { 
do 


--j; 
while (j >= i && strchr(set, s[j])); 
return j + 2; 
} 


return 0; 


} 


在 do-while 循 环 结束 时 ，j 等 于 i - 1 或 是 第 一 个 不 在 set 中 的 字符 的 索引 。 
在 前 一 种 情况 下 ，Set_rmany 必 须 返 回 i+ 1， 在 第 二 种 情况 下 ， 它 必须 返 
HsH MME. j+ 2 在 两 种 情况 下 都 是 正确 的 返回 值 。 


如 果 str 出 现在 s[j] 起 始 处 ，Str_match 返 回 Str_pos(S， i)+strlen(str)。 
就 像 Str_find， 搜 索 长 度 为 0 或 1 的 字符 串 需要 特殊 处 理 : 





(functions 


180) += 
int Str_match(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if (len == 0) 
return i+ 1; 
else if (len == 1) { 
if (i < j && s[i] == *str) 
return i + 2; 
} else if (i + len <= j && (s[i...] = str[O..len-1] 186) ) 
return i+ len + 1; 


return 0; 


处 理 一 般 情 况 时 必须 注意 ， 使 得 匹配 串 不 能 超出 s[i:j] 的 末尾 。 


类 似 的 情形 也 出 现在 Str_rmatch 中 ， 其 中 必须 避免 超出 s[i:j] 起 始 处 
的 匹配 串 ， 也 需要 将 长 上 度 为 0 或 1 的 搜索 字符 串 作 为 特例 处 理 。 


(functions 


180) += 
int Str_rmatch(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s, i, j); 

assert(str); 

len = strlen(str); 

if (len == 0) 
return j + 1; 

else if (len == 1) { 
if (j > i && s[j-1] == *str) 

return j; 

} else if (j - len >= i 

&& strncmp(&s[j-len], str, len) == 0) 
return j - len + 1; 


return 0; 


15.3.3 ”转换 函数 


最 后 一 个 函数 是 Str_fmt， 它 属于 Fmt 接 口中 提 到 的 转换 函数 。 对 转 
换 函 数 的 调用 序列 在 14.1.2 节 描述 。flags、width 和 precision 参 数 规定 了 


如 何 格式 化 字符 串 。 


Str_fmt 的 重要 特性 是 ， 对 于 传递 到 茶 个 Fmt 函 数 的 参数 列表 的 可 变 
部 分 ，Str_fmt 会 消耗 其 中 三 ”个 参数 。 这 三 个 参数 分 别 指定 了 字符 串 和 
其 中 的 两 个 位 置 。 这 两 个 位 置 给 出 了 子 串 长 度 ， 与 flags、width 和 
precision 一 起 确定 了 如 何 输 出 子囊 。Str_fmt 用 Fmt_puts 来 解释 这 些 值 并 
输出 该 字符 串 : 


(functions 


180) += 

void Str_fmt(int code, va_list “*app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
char *s; 


int i, j; 


assert(app && flags); 

s = va_arg(*app, char *); 

i = va_arg(*app, int); 

j = va_arg(*app, int); 

convert(s, i, j); 

Fmt_puts(s + i, j - i, put, cl, flags, 


width, precision); 


15.4 扩展 阅读 


[Plauger，1992] 简 要 地 批评 了 string.h 中 定义 的 函数 ， 并 说 明了 如 何 
实现 它们 。[Roberts，1995] 摘 述 了 一 个 简单 的 字符 串 接口 ， 与 Str 类 似 ， 
基于 string.h 实 现 。 


Str 接 口 的 设计 几乎 是 从 Icon 程序 设计 语言 [Griswold and Griswold, 
1990] 的 字符 串 操作 功能 逐 字 照搬 过 来 的 。 PENT EEk 
使 用 非 正 数位 置 指定 相对 于 字符 串 末 尾 的 位 置 ， oa 


Str 的 函数 仿照 了 Icon 中 名 称 类 似 的 字符 串 函 数 。Icon 中 的 函数 更 为 
强大 ， 因 为 它们 使 用 了 Icon 的 目标 导 同 的 求 值 机 制 (goal-directed 
evaluation mechanism) 。 例 如 ，Icon 的 find 函 数 可 以 返回 一 个 字符 串 在 
另 一 个 字符 串 中 出 现 的 所 有 位 置 ， 而 后 一 个 字符 串 则 是 根据 调用 find 的 
上 下 文 来 确定 的 。Icon 还 有 一 种 字符 串 扫 质 功能 也 利用 了 目标 导 回 的 求 
值 机 制 ， 这 是 一 种 强大 的 模式 匹配 功能 








Str_map 可 用 于 实现 数量 众多 的 字符 串 转 换 过 程 。 例 如 ， 如 果 s 是 一 
个 包含 7 个 字符 的 字符 串 ， 


Str_map("abcdefg", 1, 0, "gfedcba", s) 


将 返回 s 反 向 后 的 串 。[Griswold，1980] 探 讨 了 对 映射 机 制 的 此 类 用 法 。 


15.5 Je 


15.1 扩展 ids.c， 使 之 识别 并 忽略 C 语 言 注 释 、 字 符 串 常数 和 关键 
字 。 推 广 你 的 扩展 版 本 ， 使 之 能 够 接受 命令 行 参 数 ， 以 指定 需要 忽略 的 
额外 的 标识 符 。 





15.2 ”Str 的 实现 可 以 使 用 标准 C 库 中 的 字符 串 和 内 存 函 数 来 复制 字 
符 串 ， 如 strncpy 和 memcpy。 





例如 ，Str_sub 可 以 如 下 实现 。 


char *Str_sub(const char *s, int i, int j) { 


char *str; 


convert(s, i, j); 

str = strncpy(ALLOC(j - i + 1), s+ i, j - i); 
str[j - 1] = '\0'; 

return str; 


} 





一 些 C 编 译 器 可 以 识别 对 string.h 函 数 的 调用 ， 并 生成 内 联 代码 ， 这 可 能 
比 C 语 言 中 对 应 的 循环 机 制 快 得 多 。 高 度 优化 的 汇编 语言 实现 通常 也 更 
快速 。 重 新 实现 Str 接 口 ， 尽 可 能 使 用 stringh 函 数 ， 在 特定 机 器 上 使 用 特 
定 C 编 译 器 来 测量 结果 ， 然 后 按照 字符 串 参数 的 长 度 ， 分 别 度量 各 个 函 
数 的 改进 情况 。 








15.3 ”设计 并 实现 一 个 函数 ， 来 搜索 一 个 子 串 ， 以 查找 通过 正则 表 


达 式 ”指定 的 模式 ， 就 像 是 AWK 支 持 的 那样 ， 如 [Aho,， Kernighan and 
Weinberger，1988] 所 述 。 该 函数 需要 返回 两 个 值 : 匹配 串 的 起 始 位 置 及 
其 长 度 。 





15.4 Icon 有 很 广泛 的 字符 串 扫描 功能 。 其 ?运算 和 从 可 以 建立 一 个 扫 
描 环 境 ， 提 供 一 个 字符 串 及 其 中 的 一 个 位 置 。 像 find 这 样 的 字符 串 函 数 
调用 时 可 以 只 用 一 个 参数 ， 函 数 对 字符 串 及 当前 扫描 环境 中 的 位 置 进 行 
操作 。 研 究 [Griswold and Griswold，1990] 中 描述 的 Icon 的 字符 串 扫 描 功 
能 ， 设 计 并 实现 一 个 提供 类 似 功 能 的 接口 。 


15.5 stringh 和 定义 了 下 述 函 数 
char *strtok(char *s, const char *set); 


该 函数 将 s 划 分 为 看 干 标记 ， 以 set 中 的 字符 作为 分 隔 符 。 通 过 重复 地 调 

用 strtok， 即 可 将 字符 串 s 划 分 为 若干 标记 。 只 有 第 一 个 调用 会 传递 s 作 为 
参数 ，strtok 找 到 第 一 个 不 在 set 中 的 字符 ， 这 也 是 第 一 个 标记 的 起 始 地 

址 ， 然 后 strtok 会 查找 下 一 个 出 现在 set 中 的 字符 ， 并 将 其 改写 为 0 字符 ， 

并 返回 第 一 个 标记 的 地 址 。 后 续 对 strtok 的 调用 ( 形 如 strtok(NULL,， 

set)) ，NULL 参 数 使 得 strtok 从 上 一 次 搜索 完成 的 位 置 继续 查找 ， 其 过 

程 类 似 ， 最 后 将 返回 此 次 找到 的 标记 的 起 始 地 址 。 每 次 调用 的 set 可 以 是 
不 同 的 。 在 搜索 失败 时 ，strtok 返 回 NULL。 扩 展 Str 接 口 ， 增 加 一 个 函数 
提供 类 似 的 功能 ， 但 不 能 修改 其 参数 的 内 容 。 你 可 以 改进 strtok 的 设计 

吗 ? 











15.6 ”Str 接 口中 的 函数 总 是 为 其 结果 分 配 空间 ， 在 一 些 应 用 程序 中 
这 些 分 配 操作 可 能 是 不 必要 的 。 假 定 接口 中 的 函数 可 以 接受 一 个 可 选 的 
目标 ， 仅 当 目 标 为 NULEL 指 针 时 才 分 配 空间 。 例 如 ， 











char *Str_dup(char *dst, int size, 


const char *s, int i, int j, int n); 


如 果 dst 不 是 NULL， 该 函数 将 导致 结果 存储 在 dst[0..size-1 中 并 返回 
dst， 人 否则 ， 它 将 为 结果 分 配 空间 ， 与 当前 版 本 相同 。 基 于 这 种 方法 设计 
一 个 接口 。 请 注意 ， 一 定 要 规定 size 过 小 时 函数 的 行为 。 将 你 的 设计 与 
Str 接 口 比较 。 哪 个 更 简单 ? 哪个 不 容易 出 错 ? 








15.7 这 里 是 男 一 个 避免 在 St 函数 中 分 配 内 存 的 提议 。 假 定 以 下 也 
数 
void Str_result(char *dst, int size); 
将 dst 作 为 下 一 次 调用 Str 函 数 时 的 结果 字符 串 。 如 果 结 果 字 符 串 不 是 
NULL，Str 函 数 将 其 结果 存储 到 dst[0..size-1] 中 ， 并 将 结果 字符 串 指 针 设 


为 NULL 。 如 果 结 果 字 符 串 为 NULL， 它 们 将 照常 为 结果 分 配 空间 。 讨 
VOTE HE WAY A A 








[1] 作者 实际 上 忘记 了 C 对 索引 的 天 然 约 定 ， 即 所 谓 的 半 开 区 间 : 
假定 ij、j 为 基于 0 的 非 负 索引 值 ，iK=j，s 为 字符 串 ，s[i:j] 指 定 了 从 索 
引 i 开 始 、 在 索引 j 之 前 结束 的 子 串 ; 与 文中 的 位 置 约定 相 比 ， 这 种 约定 
优雅 简单 ， 而 且 具 有 同样 的 表示 能 力 。 一 一 译 者 注 





[2] 除非 字符 串 尾部 的 地 址 已 知 ， 否 则 这 是 不 可 能 的 。 译 者 注 


前 一 章 描述 了 Str 接 口 导 出 的 函数 ， 这 些 函 数 增强 了 C 语 言 处 理 字 符 
中 的 约定 。 按 照 惯例 ， 字 符 冲 是 字符 的 数组 ， 其 中 最 后 一 个 字符 是 
NULL。 虽 然 这 种 表示 适用 于 许多 应 用 程序 ， 它 确实 有 两 个 重要 的 缺 
点 。 表 先 ， 获 取 字 符 串 长 度 需 要 搜索 字符 串 ， 碍 找 标志 字符 串 结 束 的 0 
字符 ， 因 此 计算 长 度 花 费 的 时 间 与 字符 串 的 长 度 成 正比 。 其 次 ，Str 接 口 
中 的 函数 和 标准 库 中 的 一 些 函 数 假定 字符 串 是 可 以 修改 的 ， 因 此 函数 或 
其 调用 者 必须 为 结果 字符 串 分 配 空 间 ， 在 不 修改 字符 串 的 应 用 程序 中 ， 
许多 这 种 分 配 是 不 必要 的 。 











本 章 描 述 的 Text 接 口 对 字符 串 使 用 了 一 种 稍 有 不 同 的 表示 ， 解 决 了 
这 两 个 缺 皮 。 长 度 可 以 在 常数 时 间 内 计算 得 到 ， 因 为 相关 信息 保存 在 字 
符 吕 中， 而 仅 在 有 必要 时 才 分 配 内 存 。Text 提 供 的 字符 串 是 不 可 改变 
的 ， 即 它们 无 法 直接 修改 ， 而 且 其 中 可 能 包含 谍 入 的 0 字符 。Text 提 供 
了 函数 ， 可 以 在 Text 字 符 串 和 C 风 格 字 符 串 之 间 进 行 转换 ， 这 些 转换 函 
数 是 Text 接 口 的 改进 市 来 的 代价 。 








16.1 接口 


Text 接 口 通过 一 个 两 个 元 素 的 描述 符 来 表示 字符 串 ， 描 述 符 的 两 个 
元 素 分 别 是 字符 串 的 长 度 和 指向 第 一 个 字符 的 指针 : 


‘exported types 


192) = 

typedef struct T { 
int len; 
const char *str; 


+ T; 


(text.h 


#ifndef TEXT_INCLUDED 
#define TEXT_INCLUDED 


#include <stdarg.h> 


#define T Text_T 


(exported types 


192) 


(exported data 


195) 


(exported functions 


193) 


#undef T 


#endif 





str 字 段 指 向 的 字符 串 不 是 以 0 字符 结尾 的 。Text_T 指 向 的 字符 串 可 能 

含 任意 字符 ， 包 含 0 字符 在 内 。Text 接 口 给 出 了 描述 符 的 表示 ， 使 得 客 

PAET TTA E Tale E 给 定 一 个 Text_T 实 例 ，s.len 给 出 了 字 
符 串 的 长 度 ， 而 实际 的 字符 通过 s.str[0..s.len-1] 访 问 。 











客户 程序 可 以 读 取 Text_T 实 例 中 的 字段 和 其 指向 的 字符 串 中 的 字 
人 符 ， 但 不 允许 改变 字段 或 字符 ， 除 非 通 过 本 接口 中 的 函数 ， 或 者 Text_T 








实例 是 由 客户 程序 初始 化 的 ， 或 者 Text_T 实 例 是 由 Text_box 返 回 的 。 改 
变 Text_T 描 述 的 字符 串 ， 是 一 个 未 检查 的 运行 时 错误 。 辐 本 接口 中 任何 
函数 传递 的 Text_I 实 例 ， 如 果 len 字 段 为 负 值 或 str 字 段 为 NULL， 都 是 已 
检查 的 运行 时 错误 。 








Text 导 出 的 函数 按 值 传递 和 返回 描述 符 ， 即 传递 给 函数 、 函 数 返回 
的 都 是 描述 符 本 喘 ， 而 不 是 指向 摘 述 符 的 指针 。 因 而 ，Text 函 数 都 不 分 
AFH IS FF o 

必要 时 ， 一 些 Text 函 数 确 实 会 为 字符 串 本 喘 分 配 空间 。 这 种 串 空 间 
O 完全 由 Text 管 理 ， 客 户 程序 决 不 能 释放 字符 串 《〈 除 下 文 所 述 的 例外 情 
W) 。 通 过 外 部 手段 〈 如 调用 free 或 Mem_free) 释放 字符 串 ， 是 一 个 未 
检查 的 运行 时 错误 。 








以 下 函数 


‘exported functions 


193) = 
extern T Text_put(const char *str); 
extern char *Text_get(char *str, int size, T s); 


extern T Text_box(const char *str, int len); 


在 描述 符 和 C 风 格 字 符 串 之 间 进 行 转换 。Text_put 将 0 结尾 字符 串 str 复 制 
到 串 空间 中 ， 并 返回 对 应 于 新 字符 串 的 描述 符 。Text_put 可 能 引发 
Mem_Failed 异 常 。str 是 NULL， 则 造成 已 检查 的 运行 时 错误 。 





Text_get 将 s 描 述 的 字符 串 复 制 到 str[0..size-2] 中 ， 附 加 一 个 0 字符 ， 
并 返回 str。 如 果 size 小 于 s.len+1， 则 造成 已 检查 的 运行 时 错误 。 如 果 str 
是 NULL，Text_get 将 忽略 size， 调 用 Mem_alloc 来 分 配 s.len+1 个 字 节 ， 
将 s.str 复 制 到 新 分 配 的 空间 中 ， 并 返回 指向 分 配 空间 起 始 处 的 指针 。 在 
str 是 NULL 时 ，Text_get 可 能 引发 Mem_Failed 异 常 。 











客户 程序 调用 Text_box 为 常数 字符 串 或 客户 程序 自行 分 配 的 字符 哩 
建立 描述 符 。 它 将 str 和 len“ 奢 箱 ? 到 一 个 描述 符 中 并 返回 描述 符 。 例 如 ， 


static char editmsg[] = "Last edited by: "; 


Text_T msg = Text_box(editmsg, sizeof (editmsg) - 1); 


将 对 应 于 "Last edited by:" 的 Text_T 实 例 赋值 给 msg。 请 注意 ，Text_box 的 
第 二 个 参数 忽略 了 editmsg 末 尾 的 0 字符 。 如 果 不 略 去 该 字符 ， 它 将 被 当 
做 msg 摘 述 的 字符 串 的 一 部 分 。str 是 NULL 或 len 是 负 值 ， 则 造成 已 检查 
的 运行 时 错误 。 





许多 Text 函 数 可 以 接受 字符 串 位 置 ， 位 置 的 定义 可 参见 Str 接 口 。 位 
置 标识 了 字符 之 间 的 位 置 ， 包 含 第 一 个 字符 之 前 和 最 后 一 个 字符 之 
后 。 正 数位 置 标 识 了 从 字符 串 第 一 个 字符 左 侧 开 始 ( 同 右 〉 的 各 个 位 
置 ， 而 非 正 数 位 置 标识 了 从 字符 串 最 后 一 个 字符 右 侧 开始 ( 回 左 )〉 的 各 
个 位 置 。 例 如 图 15-1， 给 出 了 字符 串 Interface 中 的 各 个 位 置 。 








BS eR BK 


(exported functions 


193) += 


extern T Text_sub(T s, int i, int j); 


返回 一 个 描述 符 ， 对 应 于 s 中 位 置 i 利 j 之 间 的 子囊。 位置 i 和 j 可 以 按 任意 
顺序 给 出 。 例 如 ， 如 采 


Text_T s = Text_put("Interface"); 
下 述 表 达 式 


Text_sub(s, 6, 10) 
Text_sub(s, 0, -4) 
Text_sub(s, 10, -4) 


Text_sub(s, 6, 0) 
都 返回 对 应 于 子 串 face 的 描述 符 。 


因为 客户 程序 并 不 修改 字符 串 中 的 字符 ， 字 符 串 也 不 需要 以 0 字符 
结束 ，Text_sub 只 需要 返回 一 个 Text_T 实 例 ， 其 中 的 str 字 段 指 向 s 的 子 串 
的 第 一 个 字符 ， 而 len 字 上 段 设 置 为 该 子 串 的 长 度 即 可 。 因 而 s 和 返回 值 共 
享 实 际 字 符 串 中 的 字符 ，Text_sub 没 有 为 返回 值 分 配 空间 。 但 客户 程序 
不 能 依赖 于 s 和 返回 值 共 享 同 一 字符 串 的 这 一 事实 ， 因 为 Text 可 能 对 空 
串 和 单字 符 串 给 予 特殊 处 理 。Text 导 出 的 大 部 分 函数 都 类 似 于 Str 导 出 的 
函数 ， 但 其 中 很 多 函数 不 接受 位 置 参 数 ， 因 为 Text_sub 用 很 少 的 代价 提 
供 了 同样 的 功能 。 











以 下 函数 


‘exported functions 


193) += 


extern int Text_pos(T s, int i); 


返回 s 中 对 应 于 任意 位 置 i 的 正 数位 置 。 例 如 ， 如 果 s 如 上 所 述 被 赋值 为 


Interface， 





Text_pos(s, -4) 
将 返回 6。 


如 果 Text_pos 的 参数 ji 或 者 Text_sub 中 的 参数 ji 或 j 指 定 了 s 中 一 个 不 存 
在 的 位 置 ， 会 造成 已 检查 的 运行 时 错误 。 








以 下 函数 


‘exported functions 


193) += 
extern T Text_cat (T s1, T s2); 
extern T Text_dup (T s, int n); 


extern T Text_reverse(T s); 


分 别 连接 、 复 制 和 反 转 字符 串 ， 所 有 这 些 函 数 都 可 能 引发 Mem_Failed 卉 
常 。Text_cat 返 回 一 个 描述 符 ， 对 应 于 连接 s1 和 s2 得 到 的 结果 字符 串 ， 


如 果 s1 或 s2 是 空 囊 ， 则 返回 另 一 个 参数 。 另 外 ，Text_cat 仅 在 必要 时 构 
造 s1 和 s2 的 一 个 新 副本 。 


Text_dup 返 回 一 个 描述 符 ， 对 应 于 连接 s 的 n 个 副本 得 到 的 结果 字符 
串 ， 传 递 负 的 n 值 ， 是 一 个 已 检查 的 运行 时 错误 。Text_reverse 返 回 一 个 
字符 串 ， 其 中 包含 了 s 中 所 有 的 字符 ， 但 字符 出 现 的 顺序 与 s 正 好 相反 。 








(exported functions 


193) += 


extern T Text_map(T s, const T *from, const T *to); 





返回 根据 from 和 to 指向 的 字符 串 映射 s 的 结果 ， 映 射 规则 如 下 : 对 s 中 每 
个 出 现在 from 中 的 字符 ， 使 用 to 中 的 对 应 字符 替换 后 输出 到 结果 字符 

串 ， 对 于 s 中 没有 出 现在 from 中 的 字符 ， 字 符 本 身 直接 输出 到 结果 字符 
$. PO, 





Text_map(s, &Text_ucase, &Text_lcase) 





返回 s 的 一 个 副本 ， 其 中 的 大 写字 母 转换 为 对 应 的 小 写字 母 。 
Text_ucase 和 Text_lcase 是 Text 接 口 导 出 的 预定 义 描述 符 中 的 两 个 例子 。 
完整 的 预定 义 摘 述 符 列表 如 下 : 


(exported data 


195) = 


extern const T Text_cset; 
extern const T Text_ascil; 
extern const T Text_ucase; 
extern const T Text_lcase; 
extern const T Text_digits; 
extern const T Text_null; 


Text_cset 是 一 个 字符 串 ， 由 所 有 256 个 8 比特 的 字符 组 成 ，Text_ascii 包 含 
128 个 ASCII 字 符 ，Text_ucase 是 字符 串 
ABCDEFGHIJKLMNOPQRSTUVWXYZ，Text_lcase 是 字符 串 
abcdefghijklmnoparstuvwxyz, Text_digits#£0123456789, Text_nullé © 
Po BEF Ber I RM IE NEB AY DAF ts a SF 

串 。 








Text_map 可 以 记录 最 新 且 不 是 NULL 的 from 和 和 to 值 ， 在 from 和 to 都 是 
NULL 时 将 使 用 记录 的 值 。 如 果 from 和 to 中 仅 有 一 个 为 NULL， 或 二 者 均 
非 NULL 时 from->len 不 等 于 to->len， 则 造成 已 检查 的 运行 时 错误 。 
Text_map 可 能 引发 Mem_Failed 异 名 。 





字符 串通 过 以 下 函数 比较 


(exported functions 


193) += 


extern int Text_cmp(T s1, T s2); 








当 S1 小 于 、 等 于 、 大 于 s2 时 ， 该 函数 分 别 返回 负 值 、0、 正 值 。 


Text 接 口 导 出 了 一 组 字符 串 分 析 函 数 ， 与 Str 接 口 导 出 的 相关 函数 几 
乎 是 相同 的 。 如 下 所 述 的 这 些 函 数 ， 可 以 接受 被 检查 字符 串 中 的 位 置 作 
为 参数 ， 因 为 这 些 位 置 中 通常 编码 了 分 析 的 当前 状态 信息 。 在 接 下 来 的 
描述 中 ，s[i:j] 表 示 s 中 在 位 置 j 和 j 之 间 的 子 串 ，s 和 表示 s 中 位 置 右 侧 的 字 
IF 











下 列 函 数 在 字符 串 中 查找 单个 字符 或 一 组 字符 ， 在 所 有 情况 下 ， 如 
果 i 或 j 指 定 不 存在 的 位 置 ， 均 属 已 检查 的 运行 时 错误 。 








‘exported functions 


193) += 

extern int Text_chr(T s, int i, int j, int c); 
extern int Text_rchr(T s, int i, int j, int c); 
extern int Text_upto(T s, int i, int j, T set); 
extern int Text_rupto(T s, int i, int j, T set); 
extern int Text_any(T s, int i, T set); 

extern int Text_many(T s, int i, int j, T set); 


extern int Text_rmany(T s, int i, int j, T set); 





Text_chr 和 Text_rchr 分 别 在 s[ijj] 碍 找 最 左 侧 和 最 右 侧 的 字符 c， 并 返回 s 
中 该 字符 左 侧 的 正 数位 置 。 如 果 c 没 有 在 s[i:j] 中 ， 两 个 函数 都 返回 0。 
Text_upto 在 s[i:j] 中 从 左 同 右 搜 索 set 中 的 任意 字符 ，Text_rupto 在 s[i:j] 中 
从 右 向 左 搜索 set 中 的 任意 字符 ， 二 者 均 返 回 找到 的 第 一 个 字符 左 侧 的 正 











数位 置 。 如 果 set 中 的 所 有 字符 都 没有 出 现在 s[ij]j 中 ， 两 个 函数 都 返回 
0。 


如 果 s[j 等 于 c，Text_any 返 回 Text_pos(sS， ”iD+1， 和 否则 返回 0。 如 果 
s[i:j] 以 set 中 的 某 个 字符 开始 ，Text_many 返 回 完 全 由 set 中 字符 组 成 的 
(最 长 〉 子 串 之 后 的 正 数 位 置 ， 耕 则 ， 该 函数 返回 90。 如 果 s[i:j] 以 set 中 
的 某 个 字符 结束 ，Text_rmany 返 回 完全 由 set 中 字符 组 成 的 (最 长 〉 子 串 
之 前 的 正 数 位 置 ， 否 则 Text_rmany 返 回 0。 


FAS HY AT AT PR BEE ET Bo 


(exported functions 


193) += 

extern int Text_find(T s, int i, int j, T str); 
extern int Text_rfind(T s, int i, int j, T str); 
extern int Text_match(T s, int i, int j, T str); 


extern int Text_rmatch(T s, int i, int j, T str); 





Text_find 和 Text_rfind 分 别 在 s[i:j] 人 查找 最 左 侧 和 最 右 侧 的 子 串 str， 并 返回 
s 中 该 子 串 左 侧 的 正 数 位 置 。 如 果 str 没 有 出 现在 s[i:j] 中 ， 两 个 函数 都 返 
回 0。 


如 果 s[i:j] 以 子 串 str 开 始 ， 那 么 Text_match 返 回 Text_pos(s， 
iD)+str.len， 人 否则 返回 0。 如 果 s[ij] 以 子 串 str 结 束 ， 那 么 Text_rmatch 返 回 
Text_pos(s, j)-str.len， 人 否则 返回 0。 


以 下 函数 


‘exported functions 


193) += 
extern void Text_fmt(int code, va_list “*app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


可 以 用 于 Fmt 接 口 ， 作 为 转换 函数 。 它 消耗 一 个 指向 Text_T 实 例 的 指 

针 ， 并 按照 可 选 的 fags、width 和 precision 参 数 来 格式 化 字符 串 ， 格 式 化 
的 方式 与 printf 格 式 码 %s 相 同 。 之 所 以 使 用 指 癌 Text_T 实 例 的 指针 ， 是 
因为 在 标准 C 语 言 中 ， 在 可 变 长 度 参 数列 表 的 可 变 部 分 传递 小 的 结构 ， 
这 种 做 法 可 能 是 不 可 移植 的 。 指 向 Text_T 实 例 的 指针 为 NULL、app 或 
flags 为 NULL， 均 为 已 检查 的 运行 时 错误 。 








Text 接 口 使 得 客户 程序 可 以 有 限 地 控制 对 串 空间 的 分 配 ， 即 ， 对 于 
上 文 描述 的 返回 描述 符 的 函数 ， 可 以 控制 结果 字符 串 实际 存储 的 位 置 。 
具体 来 说 ， 可 通过 下 列 函 数 以 栈 的 形式 来 管理 相应 的 内 存 空间 。 


‘exported types 


192) += 


typedef struct Text_save_T *Text_save_T; 


(exported functions 


193) += 
extern Text_save_T Text_save(void); 


extern void Text_restore(Text_save_T *save); 


Text_save 返 回 一 个 类 型 Text_save_T 的 不 透明 指针 值 ， 其 中 编码 了 串 空 
间 的 “] 顶 部” 位置。 该 值 在 以 后 传递 给 Text_restore， 以 释放 Text_save_T 值 
创建 以 来 分 配 的 那 部 分 串 空间 。 如 果 h 是 一 个 Text_save_T 类 型 的 值 ， 调 
用 Text_restore(h) 将 使 在 h 之 后 创建 的 所 有 描述 符 和 所 有 Text_save_T 值 变 
为 无 效 。 传 递 给 Text_restore 的 Text_save_T 值 为 NULL， 是 一 个 已 检查 的 
运行 时 错误 。 调 用 Text_restore 之 后 ， 使 用 变 为 无 效 的 描述 符 和 
Text_savt_T 值 ， 是 未 检查 的 运行 时 错误 。Text_save 可 能 引发 


Mem_Failed 异 常 。 











16.2 SEIN 











Text 接 口 的 实现 与 Str 接 口 的 实现 非常 类 似 ， 但 Text 函 数 可 以 利用 几 
个 重要 的 特例 ， 详 述 如 下 。 


(text.c 


Y= 
#include <string.h> 
#include <limits.h> 
#include "assert.h" 
#include "fmt.h" 
#include "text.h" 


#include "mem.h" 
#define T Text_T 


(macros 


198) 


(types 


205) 
(data 


198) 


(static functions 


204) 


(functions 


198) 


MA i ARITA [a] PS Et 256 LT R : 


(data 


198) = 


static char cset[] = 
"\000\001\002\003\004\005\006\007\010\011\012\013\014\015\0 
"\020\021\022\023\024\025\026\027\030\031\032\033\034\035\0 
"\040\041\042\043\044\045\046\047\050\051\052\053\054\055\0 
"\060\061\062\063\064\065\066\067\070\071\072\073\074\075\0 
"\100\101\102\103\104\105\106\107\110\111\112\113\114\115\1 
"\120\121\122\123\124\125\126\127\130\131\132\133\134\135\1 
"\140\141\142\143\144\145\146\147\150\151\152\153\154\155\1 
"\160\161\162\163\164\165\166\167\170\171\172\173\174\175\1 
"\200\201\202\203\204\205\206\207\210\211\212\213\214\215\2 
"\220\221\222\223\224\225\226\227\230\231\232\233\234\235\2 
"\240\241\242\243\244\245\246\247\250\251\252\253\254\255\2 
"\260\261\262\263\264\265\266\267\270\271\272\273\274\275\2 
"\300\301\302\303\304\305\306\307\310\311\312\313\314\315\3 
"\320\321\322\323\324\325\326\327\330\331\332\333\334\335\3 
"\340\341\342\343\344\345\346\347\350\351\352\353\354\355\3 
"\360\361\362\363\364\365\366\367\370\371\372\373\374\375\3 


了 


const T Text_cset = { 256, cset }; 
const T Text_ascii = { 128, cset }; 
const T Text_ucase = { 26, cset + 'A' }; 
const T Text_lcase = { 26, cset + ‘a' }; 
const T Text_digits = { 10, cset + 'O' }; 
const T Text_null = { ©, cset }; 


Text 函 数 都 接受 位 置 参数 ， 但 会 将 位 置 转换 为 位 置 右 侧 字符 的 索 
引 ， 以 便 访问 字符 串 中 的 字符 。 正 数位 置 减 去 1 即 可 转换 为 索引 值 ， 非 


正 数 位 置 需要 加 上 字符 串 的 长 度 才 能 转换 为 索引 值 : 


(macros 


198) = 


#define idx(i, len 


) (G1 


)y<= 0 2 (i 


) + (len 


) - 1) 


索引 值 加 1 即 可 转换 为 正 数位 置 ， 如 Text_pos 的 实现 所 示 ， 该 函数 将 其 
位 置 参数 转换 为 索引 值 ， 而 后 义 将 索引 值 转换 为 一 个 正 数位 置 。 





(functions 


198) = 

int Text_pos(T s, int i) { 
assert(s.len >= 0 && s.str); 
1 = idx(i, s.len); 
assert(i >= 0 && 1 <= s.len); 
return i+ 1; 


] 





Text_pos 中 的 第 一 个 断言 实现 了 下 述 已 检查 的 运行 时 错误 : 所 有 Text_T 
实例 的 len 字 段 必 须 为 非 负 值 、str 字 段 不 能 为 NULL。 第 二 个 断言 实现 的 
已 检查 的 运行 时 错误 是 :位置 i (已 转换 为 索引 〉 应 该 对 应 于 s 中 一 个 有 
效 位 置 。 如 果 s 有 N 个 字符 ， 有 效 索 引 值 从 0 到 N-1， 而 有 效 正 数位 置 从 1 
到 N+1， 这 也 是 第 二 个 断言 可 以 接受 为 N 的 原因 。 








Text_box 和 Text_sub 都 建立 并 返回 新 的 描述 符 。 


(functions 


198) += 
T Text_box(const char *str, int len) { 


T text; 


assert(str); 
assert(len >= 0); 
text.str = str; 
text.len = len; 


return text; 


Text_sub(U, (BE DAU EE BURA RS], METRAR T 
符 串 的 长 度 : 


(functions 


198) += 
T Text_sub(T s, int i, int j) { 
T text; 


(convert 


i and 


j to indices in 


0..s.len 199) 
text.len = j - i; 
text.str = s.str + 1; 


return text; 


OSA aN, FEMME RRNA RSI Za, FEM ZAj - i 个 字符 。 
转换 代码 还 会 在 适当 情况 下 交换 i 利 j 的 值 ， 使 得 ij 总 是 指定 了 最 左 侧 字 符 
的 索引 。 








(convert 


i and 


j to indices in 


0..s.len 199) = 

assert(s.len >= 0 && s.str); 

1 = idx(i, s.len); 

j = idx(j, s.len); 

if (i > j) { int Es i; i=j; j=t;} 


assert(i >= 0 && j <= s.len); 


Be SEA AMM IRN TIES ERS], BY Dee 
这 种 位 置 。 仅 当 转 换 得 到 的 索引 值 不 用 于 获取 或 存储 字符 时 ， 才 使 用 
<convert i and j to indices in 0..s.len 279 > 代码 块 。 例 如 ，Text_sub 仅 使 用 
该 代码 块 计算 子 串 的 起 始 位 置 和 长 度 。 其 他 的 Text 函 数 仅 在 检查 过 i 和 j 
为 有 效 索 引 后 才 使 用 i 和 j 的 结果 值 。 

















Text_put 将 字符 串 复制 到 串 空间 中 ，Text_get 从 串 空 间 中 获取 字符 
串 。 因 为 几 个 原因 ，Text 实 现 了 自身 的 分 配 函 数 *alloc(int len)， 它 可 以 
在 串 空间 中 分 配 len 个 字 节 。 首 先 ，alloc 避 人 免 了 通用 分 配器 中 使 用 的 内 存 
块 首部 (block header) ， 这 样 它 可 以 将 字符 串 在 内 存 中 安排 到 相 令 的 位 
置 。 这 使 得 可 以 对 Text_dup 和 Text_cat 进 行 几 个 重要 的 优化 。 其 次 ， 
alloc 可 以 忽略 对 齐 约 束 ， 字 符 实际 上 是 不 需要 对 齐 约束 的 。 最 后 ，alloc 
必须 与 Text_save 和 Text_restore 协 作 。alloc 在 16.2.2 节 开始 描述 ， 此 外 还 
有 Text_save 和 Text_restore。 

















在 需要 分 配 串 空 间 的 少数 Text 函 数 中 ，Text_put 是 比较 典型 的 。 它 
调用 alloc 分 配 所 需 的 内 存 空间 ， 将 其 参数 字符 串 复 制 到 该 空间 中 ， 并 返 
回 适 当 的 描述 符 : 


(functions 


198) += 
T Text_put(const char *str) { 


T text; 


assert(str); 
text.len = strlen(str); 


text.str = memcpy(alloc(text.len), str, text.len); 


return text; 


Text_put 调 用 memcpy 而 不 是 strcpy 来 复制 字符 串 ， 因 为 它 不 能 同 text.str 
附加 0 字符 。 


Text_get 所 做 的 刚好 相反 : 它 将 字符 串 从 串 空间 复制 到 一 个 C 风 格 
的 字符 串 。 如 果 指 癌 C 风 格 字 符 串 的 指针 为 NULL，Text_get 调 用 Mem 的 
通用 分 配器 来 为 字符 串 及 其 结束 0 字符 分 配 内 存 空间 : 


(functions 


198) += 
char *Text_get(char *str, int size, T s) { 


assert(s.len >= 0 && s.str); 


if (str == NULL) 

str = ALLOC(s.len + 1); 
else 

assert(size >= s.len + 1); 
memcpy(str, s.str, s.len); 
str[s.len] = '\0'; 


return str; 





Text_get 调 用 memcpy 而 不 是 strncpy 来 复制 字符 串 ， 因 为 它 必 须 复制 s 中 
可 能 出 现 的 0 字符 。 


16.2.1 FIFE PRE 


Text_dup 生 成 其 Text_I 参 数 s 的 n 个 副本 ， 并 将 其 连接 起 来 。 


(functions 


198) += 

T Text_dup(T s, int n) { 
assert(s.len >= 0 && s.str); 
assert(n >= 0); 


(Text_dup 


200) 
} 


其 中 有 几 个 重要 的 特例 ， 可 以 避免 分 配 s 的 n 个 副本 。 例 如 ， 如 果 S$ 为 空 
串 或 nD 为 0， 则 Text_dup 返 回 空 串 ， 如 果 n 为 1，Text_dup 只 返回 s 即 可 : 





(Text_dup 


200) = 

if (n == 0 || s.len == 0) 
return Text_null; 

if (n == 1) 


return s; 





如 果 s 是 最 近 创 建 的 ， 那 么 s.str 可 能 刚好 位 于 串 空 间 的 末端 ， 即 ，s.str + 
s.len 可 能 等 于 下 一 个 空闲 字 节 的 地 址 。 倘 若 如 此 ， 只 需要 分 配 s 的 n - 1 个 
副本 ， 因 为 原来 的 s 可 以 充当 第 一 个 副本 。16.2.2 节 定义 的 宏 isatend(s， 
n)， 可 以 检查 s.str 是 否 位 于 串 空间 的 末端 ， 以 及 串 空 间 中 是 否 还 有 空闲 
空间 可 容纳 至 少 n 个 字符 。 





(Text_dup 


200) += 


T text; 

char *p; 

text.len = n*s.len; 

if (isatend(s, text.len - s.len)) { 
text.str = s.str; 
p = alloc(text.len - s.len); 
n--; 

} else 
text.str = p = alloc(text.len); 

for ( ; n-- > 0; p += s.len) 
memcpy(p, s.str, s.len); 


return text; 


Text_cat 返 回 两 个 字符 串 s1 和 s2 连 接 的 结果 。 


(functions 


180) += 

T Text_cat(T si, T s2) { 
assert(si.len >= 0 && si.str); 
assert(s2.len >= 0 && s2.str); 


(Text_cat 


201) 


类 似 于 Text_dup， 其 中 有 几 个 重要 的 特例 ， 可 以 避免 分 配 内 存 。 首 移 ， 
如 果 s1l 或 2 中 有 一 个 为 空 囊 ，Text_cat 可 以 只 返回 另 一 个 描述 符 : 





(Text_cat 


201) = 

if (si.len == 0) 
return s2; 

if (s2.len == 0) 


return s1; 


sl1 和 s2 可 能 已 经 是 相 令 的， 在 这 种 情况 下 Text_cat 可 以 返回 sl 作为 合并 后 
的 结果 : 


(Text_cat 


201) += 
if (si.str + si.len == s2.str) { 


si.len += s2.len; 


return s1; 


如 果 s1 位 于 串 空 间 的 末端 ， 那 么 只 需要 复制 92， 人 否则 ， 两 个 字符 串 都 必 
须 复制 : 


(Text_cat 


201) += 


T text; 
text.len = si.len + s2.1len; 
if (isatend(s1, s2.len)) { 
text.str = si.str; 
memcpy(alloc(s2.len), s2.str, s2.len); 
} else { 
char *p; 
text.str = p = alloc(si.len + s2.len); 
memcpy(p, si.str, si.len); 
memcpy(p + si.len, s2.str, s2.len); 


} 


return text; 


Text_reverse 返 回 其 参数 s 的 一 个 副本 ， 但 其 中 字符 的 顺序 与 s 相 反 ， 
该 函数 只 有 两 个 重要 特例 : 即 s 为 空 串 和 s 只 有 一 个 字符 时 : 


(functions 


198) += 
T Text_reverse(T s) { 
assert(s.len >= 0 && s.str); 
if (s.len == 0) 
return Text_null; 
else if (s.len == 1) 
return s; 
else { 
T text; 
char *p; 
int i = s.len; 
text.len = s.len; 
text.str = p = alloc(s.len); 
while (--i >= 0) 
*p++ = s.str[i]; 


return text; 


Text_map 的 实现 类 似 于 Str_map 的 实现 。 首 先 ， 它 使 用 from 和 to 字符 
串 建立 一 个 数组 来 映射 字符 ， 给 出 一 个 输入 字符 c，map[c] 即 为 输出 字 
符 串 中 对 应 于 c 的 字符 。map 初 始 化 时 ， 对 所 有 k 都 将 map[] 设 置 为 k， 然 
后 以 from 中 的 字符 为 索引 ， 将 map 中 的 元 素 设置 为 to 中 对 应 的 字符 : 


(rebuild 


map 202) = 
int k; 
for (k = 0; k < (int)sizeof map; k++) 
map[k] = k; 
assert(from->len == to->len); 
for (k = 0; k < from->len; k++) 
map[ (unsigned char)from->str[k]] = to->str[k]; 


inited = 1; 





在 map 初 始 化 之 后 ，inited 标 志 设 置 为 1，inited 用 于 实现 下 述 已 检查 的 运 
行 时 错误 : 第 一 次 调用 Text_map 时 ， 指 定 的 from 和 to 字符 串 必须 不 是 
NULL: 


(functions 


198) += 
T Text_map(T s, const T *from, const T *to) { 
static char map[256]; 


static int inited = 0; 


assert(s.len >= 0 && s.str); 


if (from && to) { 
(rebuild 


map 202) 
} else { 
assert(from == NULL && to == NULL); 
assert(inited); 
} 
if (s.len == 0) 
return Text_null; 
else { 
T text; 
int 1; 
char *p; 
text.len = s.len; 
text.str = p = alloc(s.len); 
for (i = 0; i < s.len; i++) 
*p++ = map[(unsigned char)s.str[i]]; 


return text; 


Str_map 并 不 需要 inited 标 志 ， 因 为 Strt_map 不 可 能 将 一 个 字符 映射 到 
Dy Ate 


0 字符 ， 通 过 断言 检查 map['a] 非 零 ， 即 足以 实现 已 检查 的 运行 时 错误 
(参见 15.3.1 节 ) 。 但 Text_map 人 允许 所 有 可 能 的 映射 ， 因 而 不 能 使 用 








map 中 的 一 个 值 来 实现 该 检查 。 


Text_cmp 比 较 两 个 字符 串 sl1 和 s2， 并 根据 sl 小 于 、 等 于 或 大 于 s2， 
分 别 返 回 一 个 小 于 零 、 等 于 零 或 大 于 零 的 值 。 重 要 的 特例 是 s1 和 s2 指 回 
同一 字符 串 时 ， 在 这 种 情况 下 短 的 字符 串 小 于 长 的 。 同 样 地 ， 当 一 个 字 
符 串 是 男 一 个 字符 串 的 前 级 时 ， 较 短 的 较 小 。 


(functions 


198) += 
int Text_cmp(T si, T s2) { 
assert(si.len >= 0 && si.str); 
assert(s2.len >= © && s2.str); 
if (si.str == s2.str) 
return si.len - s2.len; 
else if (si.len < s2.len) { 
int cond = memcmp(si.str, s2.str, si.len); 
return cond == © ? -1 : cond; 
} else if (s1.len > s2.len) { 
int cond = memcmp(si.str, s2.str, s2.len); 
return cond == © ? +1 : cond; 
} else 


return memcmp(si.str, s2.str, si.len); 


16.2.2 AFE 


Text 实 现 其 自身 的 内 存 分 配器 ， 这 样 在 Text_dup 和 Text_cat 中 它 可 以 
利用 相 邻 的 字符 串 。 由 于 串 空 间 只 包含 字符 ，Text 的 分 配器 还 可 以 避免 
内 存 块 首部 结构 和 对 齐 问 题 ， 能 够 节省 空间 。 该 分 配器 是 第 6 章 摘 述 的 
内 存 池 分 配器 的 一 种 简单 变 体 。 串 空间 就 如 同一 个 内 存 池 ， 其 中 己 分 配 
的 大 内 存 块 位 于 从 head 发 出 的 链表 上 : 





(data 


198) += 

static struct chunk { 
struct chunk *link; 
char *avail; 
char *limit; 


} head = { NULL, NULL, NULL }, *current = &head; 


limit 字 段 指 向 内 存 块 末端 的 下 一 个 字 节 ，avail 指 向 第 一 个 空闲 字 节 ， 
link 指 向 下 一 个 内 存 块 ， 该 内 存 块 是 全 部 空 帮 的 。current 指 同 “ 当 前 ”内 
存 块 ， 内 存 分 配 操 作 在 该 内 存 块 中 进行 。 上 述 的 定义 将 current 初 始 化 为 
指 癌 一 个 零 长 上 度 内 存 块 ， 第 一 次 分 配 会 同 head 附 加 一 个 新 内 存 块 。 





alloc 从 当前 内 存 块 分 配 len 个 字 节 ， 或 分 配 一 个 至 少 为 10KB 的 新 内 
存 块 : 


(static functions 


204) = 
static char *alloc(int len) { 
assert(len >= 0); 
if (current->avail + len > current->limit) { 
current = current->link = 
ALLOC(sizeof (*current) + 10*1024 + len); 
Current->avail = (char *)(current + 1); 
current->limit = current->avail + 10*1024 + len; 
current->link = NULL; 
} 
current->avail += len; 


return current->avail - len; 


current->avail 是 串 空 间 末 端 第 一 个 空闲 字 节 的 地 址 。 对 于 一 个 Text_T 实 
例 s 来 说 ， 如 果 s.str + s.len 等 于 current->avail， 那 么 s 就 位 于 串 空间 的 末 
端 。 因 而 宏 isatend 定 义 如 下 : 


(macros 


198) += 


#define isatend(s, n) ((s).str+(s).len == current->avail\ 


&& Current->avail + (n) <= current->limit) 


Text_dup 和 Text_cat 可 以 利用 出 现在 串 空间 末端 的 字符 串 ， 只 要 当前 内 
存 块 中 还 包含 足够 的 空空 间 可 满足 要 求 妈 可， 这 解释 了 isatend 第 二 个 
参数 的 用 途 。 





Text_save 和 Text_restore 同 客户 程序 提供 了 一 种 方法 ， 可 以 你 存 和 恢 
复 串 空间 末端 的 位 置 ， 该 位 置 由 current 和 current->avail 的 值 给 出 。 
Text_save 返 回 一 个 不 透明 指针 ， 指 同 下 述 结构 的 实例 。 


‘types 


205) = 
struct Text_save_T { 
struct chunk *current; 


char *avail; 


该 结构 可 以 给 出 current 和 current->avail 的 值 。 


(functions 


198) += 


Text_save_T Text_save(void) { 


Text_save_T save; 


NEW( save); 

save->current = current; 
save->avail = current->avail; 
alloc(1); 


return save; 





Text_savei Haloc(1 Æ E 22 lA) FE — AA, ER TE Aa AC 
的 任何 字符 串 ， 调 用 isatend 都 会 失败 。 因 而 ， 如 果 将 返回 给 客户 程序 的 
串 空间 末 病 地 址 值 作为 边界 ， 是 不 可 能 有 某 个 字符 串 跨越 这 一 边界 的 。 





Text_restore 恢 复 current 和 current->avail 的 值 ， 和 释放 Text_save_T 结 构 
并 将 *save 清 零 ， 并 释放 当前 内 存 块 之 后 所 有 的 其 他 内 存 块 。 


(functions 


198) += 
void Text_restore(Text_save_T *save) { 


struct chunk *p, *q; 


assert(save && *Save); 
Current = (*save)->current; 


Current->avail = (*save)->avail; 


FREE(*save); 

for (p = current->link; p; p= q) { 
q = p->link; 
FREE(p); 

} 


current->link = NULL; 
Me /方太 
16.2.3 分析 字符 串 
Text 导 出 的 其 余 函 数 都 用 于 检查 字符 串 ， 这 些 函 数 都 不 会 分 配 新 的 


Text_chr 在 s[i:j] 中 查找 最 左 侧 的 某 个 指定 字符 : 


(functions 


198) += 
int Text_chr(T s, int i, int j, int c) { 


(convert 


i and 


j to indices in 


O..s.len 199) 
for ( ; i< j; itt) 
if (s.str[i] == c) 
return i + 1; 


return 0; 


如 果 s.str[ 让 等 于 c，i+1 即 为 s 中 该 字符 左 侧 的 位 置 。Text_rchr 的 处 理 过 程 
类 似 ， 但 它 查 找 子 串 中 最 右 侧 出 现 的 字符 c: 


(functions 


198) += 
int Text_rchr(T s, int i, int j, int c) { 


(convert 


i and 


j to indices in 


0..s.len 199) 
while (j > i) 
if (s.str[--j] == c) 
return j + 1; 


return 0; 


Text_upto 和 Text_rupto 类 似 Text_chr 和 Text_rchr， 但 它们 会 在 字符 串 


中 查找 某 个 字符 集合 (通过 一 个 Text_T 实 例 指 定 ) 中 的 任意 字符 。 





(functions 


198) += 


int Text_upto(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 

for ( ;i < j; i++) 
if (memchr(set.str, s.str[i], set.len)) 
return i + 1; 
return 0; 
} 

int Text_rupto(T s, int i, int j, T set) { 

assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 
while (j > i) 
if (memchr(set.str, s.str[--j], set.len)) 
return j + 1; 
return 0; 


} 





Str_upto 和 Str_rupto 使 用 了 C 库 函数 strchr 来 检查 s 中 的 某 个 字符 是 否 出 现 
在 set 中 。Text 中 的 对 应 函数 不 能 使 用 strchr， 因 为 se 和 set 都 可 能 包含 0 字 
符 ， 因 此 它们 使 用 了 memchr 函 数 ， 该 函数 并 不 将 0 字符 解释 为 字符 串 结 
束 符 。 








Text find 和 Text_rfind 在 s[ij] 中 查找 字符 串 ， 这 两 个 函数 也 有 类 似 的 
问题 : 这 些 函 数 在 Str 接 口中 对 应 的 变 体 函 数 使 用 了 strncmp 来 比较 子 
串 ， 但 Text 接 口中 的 函数 必须 使 用 memcmp， 以 便 处 理 0 字 符 。Text_find 
在 s[ij] 中 搜索 最 左 侧 出 现 的 子 串 str 时 ， 将 使 用 memcmp 函 数 。 当 str 为 空 
串 或 只 有 一 个 字符 时 ， 这 两 种 特例 值得 特别 注意 。 





(functions 


198) += 
int Text_find(T s, int i, int j, T str) { 
assert(str.len >= 0 && str.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 
if (str.len == 0) 
return i + 1; 
else if (str.len == 1) { 
for (; i < j; i++) 
if (s.str[i] == *str.str) 
return i+ 1; 
} else 
for ( ; i+ str.len <= j; i++) 
if (equal(s, i, str)) 
return i + 1; 


return 0; 


(macros 


198) += 


#define equal(s, i, t 


A 


(memcmp(&(s 


).str[i], (t 


).str, (t 


).len) == 0) 


在 一 般 情况 下 ，Text_find 不 可 以 检查 超出 子 串 s[i:j] 边 界 的 字符 ， 这 也 解 
释 了 for 循 环 中 的 结束 条 件 。 


Text_rfind 类 似 Text_find， 但 它 搜索 最 右 侧 出 现 的 strY， 它 会 避免 检 


Po AY 


查 s[i:j] 之 前 的 字符 。 


(functions 


198) += 


int Text_rfind(T s, int i, int j, T str) { 
assert(str.len >= 0 && str.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 
if (str.len == 0) 
return j + 1; 
else if (str.len == 1) { 
while (j > i) 
if (s.str[--j] == *str.str) 
return j + 1; 


} else 


for ( ; j - str.len >= i; j--) 
if (equal(s, j - str.len, str)) 
return j - str.len + 1; 


return 0; 





Text_any 但 看 s 中 位 置 右 侧 的 字符 ， 如 果 该 字符 出 现在 set 中 ， 则 返 
回 Text_pos(s, i)+1. 





(functions 


198) += 
int Text_any(T s, int i, T set) { 
assert(s.len >= 0 && s.str); 
assert(set.len >= 0 && set.str); 
1 = idx(i, s.len); 
assert(i >= 0 && i <= s.len); 
if (1 < s.len && memchr(set.str, s.str[i], set.len)) 
return i + 2; 


return 0; 


“4slilteset PIS, Text_anyiklli+ 2， 因 为 i + 1S AMS A , 
此 i + 2 是 s[i] 右 侧 的 位 置 。 


Text_many 和 Text_rmany 通 常 在 Text_upto 和 Text_rupto 之 后 调用 。 它 


们 会 路 过 一 连 串 属于 某 个 给 定 集合 的 字符 ， 并 返回 第 一 个 不 属于 该 集合 
的 字符 左 侧 的 位 置 。Text_many 在 s[i:j] 中 从 左 向 右 进 行 处 理 : 





(functions 


198) += 


int Text_many(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


@©..s.len 199) 


if (i < j && memchr(set.str, 


s.str[i], set.len)) { 
do 


i++; 


了 


while (i < j 


&& memchr(set.str, s.str[i], set.len)); 


return i + 1; 
} 


return 0; 


Text_rmany 从 s[i:j] 末 端 开 始 工作 ， 从 右 同 左 处 理 ， 跨 越 一 连 串 属于 
set 的 字符 : 


(functions 


198) += 


int Text_rmany(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 

if (j > i && memchr(set.str, s.str[j-1], set.len)) { 

do 
--j; 

while (j >= i 
&& memchr(set.str, s.str[j], set.len)); 
return j + 2; 

} 


return 0; 


当 索 引 j 对 应 的 字符 不 属于 set， 或 j 等 于 i - 1 时 ，do-while 循 环 将 结束 。 在 
前 一 种 情况 下 ，j + 2 是 “违例 ”字符 右 侧 的 位 置 ， 因 而 刚好 在 一 连 串 属于 
set 字 符 的 左 侧 。 在 第 二 种 情况 下 ，s[i:j] 完 全 由 set 中 的 字符 构成 ，j + 2 位 
于 s[i:j] 的 左 侧 。 

如 果 s[i:j] 开 始 于 字符 串 str，Text_match 会 跳 过 str。 类 似 Text_find， 
Text_match 的 两 个 重要 特例 是 ，str 为 空 串 和 str 只 有 一 个 字符 的 情形 。 
Text_match 不 能 查看 s[i:j] 以 外 的 字符 ， 下 述 第 三 个 if 语 句 中 的 条 件 ， 确 
保 了 只 检查 s[i:j] 中 的 字符 。 


(functions 


198) += 


int Text_match(T s, int i, int j, T str) { 


assert(str.len >= 0 && str.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 

if (str.len == 0) 
return i + 1; 

else if (str.len == 1) { 
if (i < j && s.str[i] == *str.str) 

return i + 2; 

} else if (i + str.len <= j && equal(s, i, str)) 

return i+ str.len + 1; 


return 0; 


Text_rmatch 类 似 Text_match， 如 果 s[i] 以 字符 串 str 结 束 ， 那 么 该 函数 会 
返回 str 之 前 的 位 置 ， 该 函数 不 会 检查 s[i:j] 之 前 的 字符 。 


(functions 


198) += 
int Text_rmatch(T s, int i, int j, T str) { 
assert(str.len >= 0 && str.str); 


(convert 


i and 


j to indices in 


0..s.len 199) 
if (str.len == 0) 
return j + 1; 
else if (str.len == 1) { 
if (j > i && s.str[j-1] == *str.str) 
return j; 
} else if (j - str.len >= i 


&& equal(s, j - str.len, str)) 


return j - str.len + 1; 


return 0; 


16.2.4 转换 函数 


最 后 一 个 函数 是 Text_fmt， 这 是 一 个 格式 转换 函数 ， 供 Fmt 接 口 导 
出 的 函数 使 用 。Text_fmt 用 于 输出 Text 工 ， 其 风格 与 printf 的 %s 格 式 符 相 
同 。 它 只 是 调用 Fmt_puts， 像 printf 处 理 C 字 符 串 那样 ， 来 为 Text_T 解 释 
flags、width 和 precision。 


(functions 


198) += 
void Text_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


T *s,; 


assert(app && flags); 

s = va_arg(*app, T*); 

assert(s && s->len >= 0 && s->str); 
Fmt_puts(s->str, s->len, put, cl, flags, 


width, precision); 


} 


不 同 于 Text 接 口中 的 所 有 其 他 函数 ，Text_fmt 会 消耗 指向 Text_T 实 例 的 

一 个 指针 ， 而 不 是 Text_T 的 一 个 实例 。Text_T 实 例 很 小 ， 通 党 是 一 个 双 
字 ， 但 缺乏 东 种 可 移植 的 方法 ， 使 得 我 们 能 够 在 可 变 长 度 参 数列 表 中 将 
双 字 长 度 的 结构 实例 与 double 区 分 开 。 因 此 ， 一 些 C 语 言 实现 无 法 在 可 

变 长 度 参数 列表 中 按 值 可 靠 地 传递 双 字 结构 实例 。 传 递 一 个 指向 Text_T 
实例 的 指针 ， 在 所 有 的 实现 中 都 避免 了 这 些 问题 。 

















16.3 扩展 阅读 


Text_T 的 语义 和 实现 都 类 似 于 SNOBOL4[Griswold，1972] 和 
Icon[Griswold and Griswold，1990] 中 的 字符 串 。 这 两 种 语言 都 是 通用 字 
符 串 处 理 语言 ， 其 内 建 特性 与 Text 接 口 导出 的 函数 很 相似 。 


类 似 的 表示 和 操作 字符 串 的 技术 ， 已 经 在 编译 器 和 其 他 分 析 字 符 串 
的 应 用 程序 中 长 期 使 用 ，XPL 编 译 器 生成 器 [Mckeeman, Horning and 
Wortman，1970] 是 一 个 早期 的 例子 。 在 所 有 Text_T 都 已 知 的 系统 中 ， 可 
使 用 垃圾 收集 技术 来 管理 串 空 间 。Icon 使 用 XPL 的 垃圾 收集 算法 ， 来 回 
收 不 被 任何 已 知 的 Text_T 实 例 引 用 的 串 空 间 [Hanson，1980]。 它 将 已 知 
的 Text_T 实 例 包含 的 字符 串 复 制 到 串 空间 的 起 始 处 ， 来 使 字符 串 的 存储 
更 为 紧凑 。 


[Hansen，1992] 描 述 了 字符 串 的 一 种 完全 不 同 的 表示 方法 ， 其 中 的 
子 串 描 述 符 承载 了 足够 的 信息 ， 可 以 检索 到 子 串 所 处 的 较 大 字符 串 。 其 
中 需要 说 明 的 一 点 是 ， 这 种 表示 使 得 字符 串 可 以 同 左 右 扩 展 。 





Rope 是 另 一 种 字符 串 表 示 方 法 ， 其 中 字符 串 由 子 串 构 成 的 树 来 表示 
[Boehm, Atkinson and Plass，1995]rope 中 的 字符 可 以 在 线性 时 间 内 遍 
历 ， 这 几乎 与 Text_T 或 C 字 符 串 相同 ， 但 子 串 操 作 需 要 花费 对 数 时 间 。 
但 字符 串 连接 要 快 得 多 : 连接 两 个 rope 只 需 花 费 常 数 时 间 。rope 的 男 一 
种 有 用 特性 是 ，rope 可 以 通过 一 个 生成 第 i 个 字符 的 函数 来 描述 。 





16.4 习题 


16.1 重 写 15.2 节 中 描述 的 ids.c， 使 用 Text 函 数 。 


16.2 Text_save 和 Text_restore 不 是 很 健壮 。 例 如 ， 下 列 操作 序列 是 
错误 的 ， 但 该 错误 未 被 发 现 。 


Text_save_T X, Yy; 


x = Text_save(); 
y = Text_save(); 
Text_restore(&x); 


Text_restore(&y); 


在 调用 Text_restore(&x) 之 后 ，y 是 无 效 的 ， 因 为 它 描 述 了 x 之 后 的 一 个 串 
空间 位 置 。 修 改 Text 的 实现 ， 使 得 该 错误 成 为 一 个 已 检查 的 运行 时 错 
误 。 





16.3 Text _ save 和 Text restore 只 人 允许 栈 式 分 配 。 垃 圾 收集 可 能 更 好 
些 ， 但 要 求 所 有 可 访问 的 Text_T 实 例 都 是 已 知 的 。 设 计 Text 接 口 的 一 个 
扩展 版 本 ， 其 中 包含 一 个 用 来 “注册 中 ext_T 实 例 的 函数 ， 另 一 个 函数 
Text_compact 使 用 [Hanson，1980] 中 摘 述 的 方案 ， 将 所 有 已 注册 的 
Text_ 了 实例 引用 的 字符 串 “ 紧 缩 * 到 串 空 间 的 起 始 处 ， 以 回收 被 未 注册 的 
Text_T 实 例 占 据 的 空间 。 


16.4 扩展 搜索 字符 串 的 函数 ， 如 Text find 和 Text_match， 使 之 能 
够 接受 Text_T 参 数 来 指定 正则 表达 式 “， 而 不 是 只 搜索 普通 的 字符 串 。 
[Kernighan and Plauger，1976] 描 述 了 正则 表达 式 ， 以 及 用 于 匹配 正则 表 
达 式 的 自动 机 的 实现 。 





16.5 ”基于 [Hansen，1992] 描 述 的 子 串 模型 ， 设 计 一 个 接口 并 实 
现 。 





[1] 指 由 Text 接 口 的 实现 为 字符 串 分 配 的 内 存 空间 ， 本 章 中 多 处 引 
用 ， 故 重新 命名 一 个 名 称 。 


[2] 原文 中 所 谓 的 位 置 ， 是 指 字符 之 间 的 位 置 ， 不 是 指 字符 的 位 
置 ， 字 符 实际 上 没有 位 置 的 。 一 一 译 者 注 


第 17 草 ”扩展 精度 算 木 


在 整数 位 宽 为 32 位 的 计算 机 上 ， 能 够 表示 从 -2 147 483 648 一 +2 147 
483 647 的 有 符号 整数 《使 用 二 进 制 补 码 表 示 ) ， 以 及 从 0 一 4 294 967 
295 的 无 符号 整数 。 对 很 多 (可 能 是 大 多 数 ) 应 用 程序 来 说 ， 上 述 范 围 
已 经 足够 大 了 ， 但 有 一 些 应 用 程序 需要 更 大 的 表示 范围 。 整 数 的 表示 范 
围 相 对 较 小 ， 但 可 以 表示 其 中 每 一 个 整数 值 。 浮 点 数 的 表示 范围 很 巨 
大 ， 但 只 能 表示 其 中 相对 较 少 的 值 。 如 果 对 精确 值 取 近似 是 可 接受 的 ， 
那么 可 以 使 用 浮 点 数 ， 例 如 许多 科学 应 用 ， 但 在 需要 使 用 一 个 很 大 的 范 
围 中 所 有 的 整数 值 时 ， 就 不 能 使 用 浮 点 数 了 。 














本 章 描述 了 一 个 很 底层 的 接口 XP， 它 导出 了 一 些 函 数 ， 可 用 于 固 
定 精 度 扩展 整数 的 算术 操作 。 可 以 表示 的 值 只 受 限 于 可 用 的 内 存 。 该 接 
口 用 来 服务 于 较 蜗 级 的 接口 ， 如 下 两 草 摘 述 的 接口 。 这 些 高 级 接口 的 设 
计 ， 使 之 可 用 于 需要 巨大 范围 整数 值 的 应 用 程序 中 。 











17.1 接口 





一 个 n 个 数位 的 无 符号 整数 x 可 以 表示 为 下 述 多 项 式 : 
又 一 Xn_1 bl +Xp-2 bn +.. .+X] bt +Xo 


其 中 b 为 基数 ，0<xi ”<b。 在 无 符号 整数 位 宽 32 位 的 计算 机 上 ，m 为 
32，b 为 2， 每 个 系数 xi 表示 为 〈32 个 比特 位 中 ) 对 应 的 比特 位 。 这 种 表 
示 可 以 推广 ， 用 于 以 任意 基数 来 表示 无 符号 整数 。 例 如 ， 如 果 b 为 10， 
那么 每 个 Xi ”是 0 一 9 E) 的 一 个 整数 ，x 可 以 表示 为 一 个 数组 。 数 字 2 
147 483 647 可 以 表示 为 下 列 数 组 











unsigned char x[] = { 7, 4, 6, 3, 8, 4, 7, 4, 1, 2 }; 


其 中 x; 保存 在 x 四 中 。 数 位 x; 在 x 中 出 现 的 顺序 ， 是 最 低位 优先 ， 这 是 实 
现 算术 操作 最 方便 的 顺序 。 


选择 较 大 的 基数 可 以 节省 内 存 ， 因 为 基数 越 大 ， 数 位 的 范围 越 大 。 
例如 ， 如 果 b 为 21 =65 536， 每 个 数位 是 一 个 0 一 65 535( 含 ) 的 数 ， 只 
需要 两 个 数位 ANETT) 即 可 表示 2 147 483 647: 


unsigned short x[] = { 65535, 32767 }; 
而 以 下 包含 64 个 数位 的 十 进 制 数 


3490529510847659491478496199038981334177646384933878439908: 


可 以 表示 为 一 个 14 个 元 素 〈28 个 字 节 ) 的 数组 : 


{ 38625, 9033, 28867, 3500, 30620, 54807, 4503, 
60627, 34909, 43799, 33017, 28372, 31785, 8 }. 


如 果 b 为 2k Hi aa ee ica ear gare 那么 
可 以 使 用 较 小 的 基数 而 不 会 浪费 空间 。 可 能 更 重要 的 一 点 是 ， 较 大 的 基 
数 会 使 某 些 算术 操作 的 实现 复杂 化 。 如 下 文 详 述 ， mW long% 
KINJ AAS -1， 那 么 即 可 避免 这 种 复杂 化 。XP 使 用 的 b 值 为 23 ， 将 每 
个 数位 存储 在 一 个 无 符号 字符 中 ， 因 为 标准 C 语 言 保证 unsigned long 位 
宽 至 少 为 32， 其 中 至 少 包 含 3 个 字 节 ， 因 此 unsigned long 可 以 容纳 b3 
-1=2°4 -1。 使 用 b=23 ， 需 要 花费 4 个 字 节 表示 2 147 483 647: 














unsigned char x[] = { 255, 255, 255, 127 }; 


要 27 个 字 节 表示 上 述 的 64 个 数位 的 十 进 制 数 : 


{ 225, 150, 73, 35, 195, 112, 172, 13, 156, 119, 23, 214, 151, 1 
211, 236, 93, 136, 23, 171, 249, 128, 212, 110, 41, 124, 8 }. 


XP 接口 揭示 了 这 些 表 示 细 市 : 


(xp.h 


)= 
#ifndef XP_INCLUDED 


#define XP_INCLUDED 


#define T XP_T 


typedef unsigned char *T; 


(exported functions 


214) 


#undef T 


#endif 


即 XP_T 是 一 个 由 无 符号 字符 构成 的 数组 ， 包 含 了 一 个 n 位 数 的 的 各 个 数 
位 ， 基 数 为 23 ， 最 低位 优先 。 


如 下 所 述 ，XP 接 口中 的 函数 以 n 为 输入 参数 ，XP_T 实 例 为 输入 / 输 
出 参数 ， 这 些 数组 必须 足够 大 以 便 容纳 n 个 数位 。 同 该 接口 中 任何 函数 
传递 的 XP_T 实 例 为 NULL、XP_T 实 例 容量 太 小 、 或 长 度 n 不 是 正 值 ， 都 
是 未 检查 的 运行 时 错误 。XP 是 一 个 危险 的 接口 ， 因 为 省 略 大 部 分 已 检 
得 的 运行 时 错误 。 这 种 设计 有 两 个 原因 。XP 的 目标 客户 程序 是 较 高 级 
的 接口 ， 这 些 接口 很 可 能 已 经 规定 并 实现 了 必要 的 已 检查 的 运行 时 错 
误 。 其 次 ，XP 接 口 要 尽 可 能 简单 ， 以 便 将 其 中 一 些 函数 以 汇编 语言 实 
现 〈 如 果 有 性 能 方面 的 要 求 ) 。 后 一 种 考虑 ， 是 XP 函 数 不 进行 内 存 分 
配 的 原因 。 





























以 下 函数 


(exported functions 


214) = 
extern int XP_add(int n, Tz, T x, T y, int carry); 


extern int XP_sub(int n, Tz, T x, T y, int borrow); 


实现 了 z=x+y+carry 和 Zz=X-y-borrow。 在 此 处 以 及 下 文 ，x、y 和 z 指 代 由 数 
组 x、y 和 z 表 示 的 整数 值 ， 假 定 这 些 整数 值 包含 n 个 数位 。carry 和 borrow 
必须 为 0 或 1。XP_add 将 z[0..n-1] 设 置 为 xt+ytcarry 的 值 ( 和 值 最 多 包含 n 
个 数位 ) ， 并 返回 最 高 有 效 位 的 进位 输出 。XP_sub 将 z[0.n - 1] 设 置 为 x- 
y-borrow 的 值 〈 差 值 最 多 n 个 数位 ) ， 并 返回 最 高 有 效 位 的 借 位 输出 。 
因而 ， 如 果 XP_add 返 回 1， 则 n 个 数位 无 法 容纳 x+y+carry 的 值 ， 而 如 果 
XP_sub 返 回 1， 那 么 y>xX。 如 果 只 考虑 这 两 个 函数 ，Xx、y 或 z 中 任意 多 个 
参数 ， 均 可 为 同一 XP_T 实 例 。 








(exported functions 


214) += 


extern int XP_mul(T z, int n, T x, int m, T y); 


上 述 函 数 实现 了 z=z+x*y， 其 中 x 有 n 个 数位 ，y 有 m 个 数位 。z 必 须 足以 
容纳 ntm 个 数位 : XP_mul 将 n+m 个 数位 的 乘积 xx*y， 加 到 z 上 。 当 z 初 始 
化 为 0 时 ，XP_mul 将 z[0..n+m-1] 设 置 为 xxsy。XP_mul 的 返回 值 ， 是 x 和 y 
的 乘积 最 高 有 效 位 的 进位 输出 。 如 果 z 与 x 或 y 为 同一 XP_T 实 例 ， 则 造成 





未 检查 的 运行 时 错误 。 


XP_mul 说 明了 const 限 定 符 可 以 发 挥 作 用 的 情形 ，const 有 助 于 标识 
输入 /输出 参数 ， 还 可 以 作为 文档 ， 以 防止 此 类 运行 时 错误 。 下 述 声明 


extern int XP_mul(T z, int n, const unsigned char *x, 


int m, const unsigned char *y); 


明确 地 规定 了 XP_mul 从 x 和 y 读 取 并 写 入 到 z， 因 而 隐 含 地 指出 了 z 不 应 
该 与 x 或 y 相 同 。 对 x 和 y 不 能 使 用 const TI 的 语法 ， 因 为 这 将 意味 着 “ 指 辐 
unsigned char 的 常数 指针 ”， 而 不 是 我 们 预期 的 “指向 unsigned char 常 数 的 
指针 ”( 参 见 2.4 节 ) 。 习 题 19.5 探 讨 了 能 够 与 const 限 定 符 正常 协作 的 一 
些 其 他 形式 的 T 定 义 。 











但 const 限 定 符 并 不 能 防止 同一 XP_T 实 例 分 别 作为 x< 和 z (或 y 和 z) 
传递 ， 因 为 unsigned char * 类 型 的 值 可 以 传递 给 const unsigned char * 类 型 
的 参数 。 但 const 的 这 种 用 法 ， 确 实 允 许 将 一 个 const unsigned char * 类 型 
的 值 作为 x 和 y 传 递 ， 在 XP 接口 声明 的 上 述 XP_mul 函 数 中 ， 必 须 使 用 类 
型 转换 来 传递 这 些 值 。 在 XP 接口 中 ，const 的 少量 好 处 ， 很 难 平衡 其 元 
TRIMER RS o 
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(exported functions 


214) += 


extern int XP_div(int n, Tq, T x, int m, T y, T r,T tmp); 


实现 了 除法 : 它 计 算 了 q=xy 和 r=x mod y，q 和 x 有 n 个 数位 ，r 和 y 有 m 个 
数位 。 如 果 y 为 0，XP_div 返 回 09， 不 改变 q 和 r， 否 则 ， 它 将 返回 1。tmp 

必须 能 够 容纳 至 少 n+m+2 个 数位 。q 或 r 与 x 和 y 中 之 一 相同 、gq 和 r 是 同一 

XP_T 实 例 、tmp 能 够 容纳 的 数位 太 少 ， 都 是 未 检查 的 运行 时 错误 。 





以 下 函数 


‘exported functions 


214) += 

extern int XP_sum (int n, Tz, T x, int y); 
extern int XP_diff (int n, Tz, T x, int y); 
extern int XP_product (int n, Tz, T x, int y); 
extern int XP_quotient(int n, T z, T x, int y); 





实现 了 n 个 数位 的 XP_T 实 例 x 和 单个 数位 的 整数 值 y〈 基 数 28 ) 之 间 的 加 
法 、 减 法 、 乘 法 和 除法 。XP_sum 将 z[0..n - 了 1] 设 置 为 x+y 的 值 ， 并 返回 最 
高 有 效 位 的 进位 输出 。XP_diff 将 z[0..n - 1] 设 置 为 x-y 的 值 ， 并 返回 最 高 
有 效 位 的 借 位 输出 。 对 于 XP_sum 和 XP_diff，y 必 须 为 正 数 且 不 能 大 于 基 
数 28 。 


XP_product 将 z[0..n - 1] 设 置 为 x*y 的 值 ， 并 返回 最 高 有 效 位 的 进位 
输出 ， 进 位 最 大 为 28 -1。XP_quotient 将 z[0.n - 1] 设 置 为 x/y 的 值 并 返回 
余数 x mod y， 余 数 最 大 为 y-1。 对 于 XP_product 和 XP_quotient，y 不 能 
72° <1 


(exported functions 


214) += 


extern int XP_neg(int n, T z, T x, int carry); 


该 函数 将 z[0..n - IKE A~x + carry 的 值 ， 并 返回 最 高 有 效 位 的 进位 输 
出 。 在 carry 为 0 时 ，XP_neg 实 现 了 取 反 (one's complement negation) , 
在 carry 为 1 时 ，XP_neg 实 现 了 求 补 (two's complement negation) 。 


XP T 实 例 通过 下 列 函 数 比 较 


(exported functions 


) += 


extern int XP_cmp(int n, T x, T y); 
对 于 x<y、x=y 或 x>y 三 种 情形 ， 该 函数 分 别 返 回 负 值 、0、 正 值 。 
可 以 用 下 列 函 数 对 XP_T 进 行 移 位 操作 : 


(exported functions 


214) += 


extern void XP_lshift(int n, T z, int m, T x, 
int s, int fill); 
extern void XP_rshift(int n, T z, int m, T x, 


int s, int fill); 


上 述 两 个 函数 分 别 将 x 左 移 / 右 移 s 个 比特 位 得 到 的 值 赋值 给 z， 其 中 z 有 n 
个 数位 ，x 有 mm 个 数位 。 当 n 大 于 m 时 ，x 高 位 缺失 的 那些 数位 ， 如 有 果 进 行 
左 移 ， 则 其 中 的 比特 位 当做 0 处 理 ， 如 果 进 行 右 移 ， 其 中 的 比特 位 当做 
fi 处理 。 空 出 的 比特 位 用 fl 填充 ，f 记 必须 为 0 或 1。f 训 为 0O 时 ，XP_rshift 
实现 了 逻辑 右 移 (logical right shift) ，fi 为 1 时 ，XP_rshift 可 用 于 实现 
SARA (arithmetic right shift) 。 


(exported functions 


214) += 

extern int XP_length (int n, T x); 

extern unsigned long XP_fromint(int n, T z, 
unsigned long u); 


extern unsigned long XP_toint (int n, T x); 


XP_length 返 回 x 中 数位 的 数目 ， 即 ， 它 返回 x[0..n-H 中 最 高 非 零 数 位 的 


索引 加 1。XP_fromint 将 z [ 0..n - 1 设置 为 u mod 28" 并 返回 W288 ， 即 返 
回 u 中 z 无 法 容纳 的 那些 比特 位 。XP toint 返 回 X mod 
(ULONG_MAX+1)， 即 x 中 最 低 8 * sizeof(unsigned long) 个 比特 位 。 


剩余 的 XP 函 数 负责 在 字符 串 和 XP _T 之 间 进 行 双 回 转换。 


(exported functions 


214) += 
extern int XP_fromstr(int n, T z, const char *str, 
int base, char **end); 
extern char *XP_tostr (char *str, int size, int base, 


int n, T x); 


XP_fromstr 类 似 C 库 中 的 strtoul， 它 将 str 中 的 字符 串 解 释 为 以 base 为 基数 
的 无 符号 整数 。 该 函数 忽略 字符 串 开 头 的 空白 字符 ， 并 处 理 其 后 以 base 
为 基数 的 一 个 或 多 个 数位 。 对 于 11 一 36 的 基数 来 说 ，XP_fromstr 将 小 写 
或 大 写字 母 解释 为 大 于 九 的 数位 。base 小 于 2 或 大 于 36， 则 为 已 检查 的 
运行 时 错误 。 


在 计算 str 指 定 的 整数 时 ， 将 使 用 通常 的 乘法 算法 ， 逐 位 囚 积 计 
算 ， 保 存 至 n 数 位 的 XP_ 工 实例 z: 


for (p = str; *p is a digit 


; ptt) 


- base*z 


+ *p's value 


函数 的 实现 中 ， 不 会 将 z 初 始 化 为 0， 客 户 程序 必须 正确 地 初始 化 z 值 。 
在 一 系列 的 base * z 乘 法 运算 中 ， 当 第 一 次 出 现 非 零 进 位 输出 时 ， 该 进 
位 输出 值 将 用 作 XP_fromstr 的 返回 值 ， 如 果 始 终 都 没有 非 零 进位 输出 ， 

则 返回 0。 因而， 如 果 z 无 法 容纳 str 指 定 的 数字 ， 则 XP_fromstr 将 返回 非 
零 值 。 





如 果 end 不 是 NULL， 函 数 会 将 *end 指 向 XP_fromstr 的 解释 过 程 结束 
的 那个 字符 ， 此 时 可 能 发 生 了 乘法 上 洲 或 扫描 到 非 数 字 字 符 。 如 果 str 中 
的 各 个 字符 不 是 基数 base 下 的 整数 ， 那 么 XP_fromstr 将 返回 0， 并 将 *end 
设置 为 str (如果 end 不 是 NULL)〉。str 是 NULL， 则 造成 已 检查 的 运行 时 
错误 。 











XP_tostr 将 x 在 基数 base 下 的 字符 表示 填充 到 str 中 (以 0 结尾 〉 ， 并 
返回 str。x 将 设置 为 零 。 在 base 大 于 10 时 ， 大 写字 母 用 于 表示 大 于 9 的 数 
位 。base 小 于 2 或 大 于 36， 则 为 已 检查 的 运行 时 错误 。str 为 NULL 或 size 
太 小 ， 也 是 已 检查 的 运行 时 错误 ，size 太 小 ， 是 指 x 的 字符 表示 加 上 一 个 
0 字符 ， 超 出 Size 个 字符 的 情形 。 

















17.2 


(xp.c 


= 
#include 
#include 
#include 


#include 


实现 


<ctype.h> 
<string.h> 
"assert.h" 


"xp. h" 


#define T XP_T 


#define BASE (1<<8) 


(data 


229) 


(functions 


217) 


XP_fromint 和 XP toint 说 明了 XP 函 数 必 须 执 行 的 各 种 算术 操作 。 
XP_fromint 初 始 化 一 个 XP_T， 使 之 等 于 某 个 指定 的 unsigned long 值 : 


(functions 


217) = 
unsigned long XP_fromint(int n, T z, unsigned long u) { 


int i = 0; 


do 
z[i++] = u%BASE; 
while ((u /= BASE) > © && i < n); 
for (; i <n; i++) 
z[i] = 0; 
return u; 


} 


严格 来 襄 ，u%BASE 不 是 必需 的 ， 因 为 对 z 趾 的 赋值 隐 含 地 进行 了 模 操 
作 。 所 有 实现 算术 操作 的 XP 函数 都 执行 了 此 类 显 式 操 作 ， 以 便 协 助 说 
明 函 数 使 用 的 算法 。 由 于 基数 是 2 的 常数 次 究 ， 大 多 数 编 译 器 会 将 基数 
FARA He. BRIE. DURRANI A. eA. 








XP toint 是 XP_fromint 的 逆 : 它 将 XP_T 的 最 低 8 *  sizeof(unsigned 
long) 个 比特 位 当做 unsigned long 返 回 。 


(functions 


217) += 
unsigned long XP_toint(int n, T x) { 
unsigned long u = 0; 


int 1 = (int)sizeof u; 


if (i > n) 
i = n; 
while (--i >= 0) 
u = BASE*u + x[i]; 


return u; 








一 个 非 零 的 n 数 位 XP_T， 如 果 其 最 高 位 部 分 是 一 个 或 多 个 连续 的 
0， 那 么 其 有 效 数 位 的 数目 要 少 于 n。XP_length 返 回 有 效 数 位 的 数目 ， 
不 计算 最 高 有 效 位 之 前 的 0 数位 : 


(functions 


217) += 
int XP_length(int n, T x) { 
while (n > 1 && x[n-1] == 0) 


n--; 


return n; 


17.2.1 ”加 减法 


实现 加 减法 的 算法 ， 实 际 上 是 小 学 里 笔算 技巧 的 系统 化 再 现 。 假 定 
基数 为 10， 下 述 例子 很 好 地 说 明了 加 法 z=x+y: 


加 法 的 过 程 从 最 低 有 效 位 到 最 高 有 效 位 进行 ， 在 本 例 中 ， 进 位 值 的 初始 
值 为 0。 每 一 步 都 建立 和 值 S=carry+xi +y; ，z; 的 值 为 S mod b， 新 的 进位 
值 为 Sb， 其 中 b 为 基数 ， 本 例 中 为 10。 顶 行 中 以 小 号 字体 显示 的 数字 是 
进位 值 ， 底 部 一 行 中 以 两 个 数位 显示 的 数字 是 $ 的 值 。 在 本 例 中 ， 进 位 
输出 为 1， 因 为 4 个 数位 无 法 容纳 和 值 。XP_add 精 确 地 实现 了 本 算法 ， 
并 返回 最 终 的 进位 值 : 


(functions 


217) += 
int XP_add(int n, Tz, T x, T y, int carry) { 


int 1; 


for (i = 0; i < n; i++) { 
carry += x[i] + y[i]; 
z[i] = carry%BASE; 
carry /= BASE; 

} 

return carry; 


} 


循环 的 每 一 次 迭代 中 ，carry 暂 时 保存 了 对 应 于 当前 数位 的 和 值 S， 而 后 
的 除法 ， 使 得 carry 只 包含 进位 值 。 各 个 数位 都 是 0 和 b-1 之 间 的 一 个 数 
字 ， 进 位 值 可 以 为 0 或 1， 因 此 对 单个 数位 来 说， 和 值 S 的 最 大 值 为 (b-1)+ 
(b-1)+1=2b-1=511， 很 容易 放 入 一 个 int 值 中 。 





减法 z=x-y， 类 似 于 加 法 : 


1 0 0 
4 2 8 
一 7 2 2 
6 09 16 


减法 的 过 程 从 最 低 有 效 位 到 最 高 有 效 位 进行 ， 在 本 例 中 ， 借 位 值 的 初始 
值 为 0。 每 一 步 都 形成 差 值 D=xi +b-borrow-y; ，z; 的 值 为 D mod b， 新 的 
借 位 值 为 1-D/b。 顶 行 中 以 小 号 字体 显示 的 数字 是 借 位 值 ， 底 部 一 行 中 
以 两 个 数位 显示 的 数字 是 D 的 值 。 


(functions 


217) + 三 
int XP_sub(int n, Tz, T x, T y, int borrow) { 


int 1; 


for (i = 0; i < n; i++) { 
int d = (x[i] + BASE) - borrow - y[i]; 
z[i] = d%BASE; 
borrow = 1 - d/BASE; 

} 


return borrow; 


DD 人 至 多 为 (b-1)+b-0-0=2b-1=511， 很 容易 放 入 一 个 int 值 中 。 如 果 最 终 的 借 
位 值 非 零 ， 那 么 x 小 于 y。 

单数 位 加 减法 E 比 通用 的 函数 简单 些 ， 它 们 使 用 第 二 个 操作 数 作 
为 进位 或 借 位 : 


(functions 


217) += 
int XP_sum(int n, T z, T x, int y) { 


int 1; 


for (i = 0; i < n; i++) { 
y += x[i]; 
z[i] = y%BASE; 
y /= BASE; 
} 
return y; 
} 
int XP_diff(int n, Tz, T x, int y) { 


int 1; 


for (i = 0; i <n; itt) { 
int d = (x[i] + BASE) - y; 
z[i] = d%BASE; 
y = 1 - d/BASE; 

} 


return y; 


XP_neg 类 似 单数 位 加 法 ， 但 x 的 各 个 数位 在 加 法 之 前 会 取 反 : 


(functions 


217) += 


int XP_neg(int n, T z, T x, int carry) { 


int 1; 


for (i = 0; i < n; i++) { 
carry += (unsigned char)~x[i]; 
Z[i] = carry%BASE; 
carry /= BASE; 

} 

return carry; 


} 


到 unsigned char 的 类 型 转换 确保 了 一 xD] 的 值 小 于 b。 


17.2.2 ”乘法 


如 果 x 有 n 个 数位 而 y 有 m 个 数位 ，z=x*y 会 形成 m 个 部 分 积 ， 每 个 部 
分 积 都 有 n 个 数位 ， 这 m 个 部 分 积 的 和 有 n+m 个 数位 。 以 下 例子 说 明了 当 
z 的 初始 值 为 0、n 为 4、m 为 3 的 情形 下 ， 乘 法 执行 的 过 程 : 





"E 2 
x 9 4 2 8 
5 8 5 6 
1 4 6 4 
2 9 2 8 
+ 6 5 8 8 
6 9 0 11296 


部 分 积 不 必 明 确 地 计算 出 来 ， 在 计算 乘积 中 的 的 各 个 数位 时 ， 每 个 


部 分 积 都 会 加 到 z 上 。 例 如 ， 第 一 个 部 分 积 8 * 732 中 的 各 个 数位 ， 会 从 
最 低 有 效 位 到 最 高 有 效 位 进行 计算 。 该 部 分 积 的 第 i 个 数位 将 加 到 z 的 第 i 
个 数位 ， 同 时 还 会 应 用 加 法 中 的 进位 计算 。 第 二 个 部 分 积 2 * 732 的 第 i 
个 数位 ， 加 到 z 的 第 i+1 个 数位 。 一 般 来 说 ， 当 计算 涉及 Xi 的 部 分 积 时 ， 
该 部 分 积 的 各 个 数位 将 从 z 的 第 i 企 数位 开始 ， 加 到 z 上 。 


(functions 


217) += 
int XP_mul(T z, int n, T x, intm, T y) { 


int i, j, carryout = 0; 


for (iS OO i en i+) T 
unsigned carry = 0; 
for (j = 0; j <m; j++) { 
carry += x[i]*y[j] + z[itj]; 
z[i+j] = carry%BASE; 


carry /= BASE; 


for (; j <n+m- i; j++) { 
carry += z[it+j]; 
z[i+j] = carry%BASE; 
carry /= BASE; 
} 


carryout |= carry; 


} 


return carryout; 


} 


ANTE TP REVAT, KÁRRA AE, EE 

大 可 以 达到 b-1， 因 此 保存 在 carry 中 的 和 值 ， 最 大 可 以 达到 (b-1)(b-1)+(b- 
1)=b” -b=65 280，unsigned 类 型 完全 可 以 容纳 该 值 。 在 将 一 个 部 分 积 加 
到 z 之 后 ， 第 二 个 散 套 循环 将 进位 值 加 到 z 中 余下 的 数位 上 ， 并 记录 “这 

次 ”加 法 中 z 的 最 高 位 的 进位 。 如 果 该 进位 值 为 1， 则 z+x*y 的 进位 输出 为 
1. 








单数 位 乘法 相当 于 XP_mul 的 特例 ， 即 m 等 于 1、z 初 始 化 为 0 的 情 
形 : 


(functions 


217 )+= 
int XP_product(int n, T z, T x, int y) { 
int 1; 


unsigned carry = 0; 


for (i = 0; i < n; itt) { 
carry += x[i]*y; 
Z[i] = carry%BASE; 


carry /= BASE; 


} 


return carry; 


17.2.3 ”除法 和 比较 





除法 是 最 复杂 的 算术 函数 。 有 几 种 算法 可 以 使 用 ， 其 各 有 优 缺 点 。 
可 能 其 中 最 容易 理解 的 算法 ， 来 自 于 计算 q=x/y 和 r=x mod y 的 下 述 数学 
规则 。 


if x 
< y 


then 9 


a 


/2y 


-X 


mod 2y 


if r' 


<y 


then q 


= 2q' 


else q 


- 29 


当然 ， 涉 及 dg 和 r 的 中 间 计 算 必 须 使 用 XP_T 完 成 。 


这 个 递归 算法 的 问题 在 于 对 dg 和 mr 的 内 存 分 配 。 这 种 分 配 可 能 多 达 1g 
x 次 〈 这 里 ，1g 是 以 2 为 底 的 对 数 ) ， 因 为 lg _x 是 递归 深度 的 最 大 值 。XP 
接口 禁止 这 种 隐 仿 的 内 存 分 配 。 





对 于 x>y 且 y 至 少 有 两 个 有 效 数 位 的 一 般 情 形 ，XP_div 使 用 了 一 种 高 
效 的 迭代 算法 ， 对 x<y 的 情形 和 y 只 有 一 个 数位 的 情形 ， 将 使 用 更 为 简单 
的 算法 。 


(functions 


217) += 


int XP_div(int n, Tq, T x, int m, T y, Tr, T tmp) 


int nx = n, my = m; 


n = XP_length(n, x); 
m = XP_length(m, y); 
if (m = 1) { 


(single-digit division 


222) 
} else if (m > n) { 
memset(q, '\@', nx); 
memcpy(r, x, n); 
memset(r + n, '\O', my - n); 
} else { 


(long division 


223) 


return 1; 


} 








XP_div 首 移 检 查 是 侣 为 单数 位 除法 ， 该 情形 隐 含 了 对 除 以 零 的 处 理 。 





单数 位 除法 很 容易 ， 因 为 商 的 各 个 数位 可 以 使 用 C 语 言 中 普通 的 无 
符号 整数 除法 计算 。 除 法 从 最 高 位 到 最 低位 进行 ， 进 位 值 的 初始 值 为 
。 十 进 制 下 的 9428 除 以 7， 即 说 明了 除法 涉及 的 各 个 步 又 : 





S 


在 每 一 步 》 部 分 被 除数 R=carry*b+x; , B 的 数位 qi =R/yo 新 的 进位 值 
为 R mod yo 。 进 位 值 是 上 图 中 以 小 号 字体 显示 的 数位 。 进 位 值 的 最 终 值 
即 为 余数 。 这 正 是 XP_quotient 所 实现 的 操作 ， 该 函数 返回 余数 : 


(functions 


217) += 
int XP_quotient(int n, T z, T x, int y) { 
int i; 


unsigned carry = 0; 


for (i =n - 1; i >= 0; i--) { 
carry = carry*BASE + x[i]; 


z[i] = carry/y; 


carry %= y; 


} 


return carry; 


R 在 XP_quotient 中 赋值 给 carry， 其 最 大 值 为 b-1)b+(b-1D)=b“ -1=65535, 





unsigned 类 型 值 可 以 容纳 该 值 。 











在 XP_div 中 ， 调 用 XP_quotient 返 回 的 是 ?的 最 低 有 效 位 ， 
数位 必须 明确 设置 为 0: 


‘single-digit division 


222) = 
if (y[0] == 0) 
return 0; 
r[0] = XP_quotient(nx, q, x, y[0]); 


memset(r + 1, '\O', my - 1); 


因此 其 余 


在 一 般 情况 下 ，n 个 数位 的 被 除数 除 以 m 个 数位 的 除数 ， 其 中 n>m 旦 
m>1。 在 基数 10 下 ， 将 615 367 除 以 296， 就 说 明了 除法 的 计算 过 程 。 被 








除数 最 高 位 之 前 会 补 一 个 0 数位 ， 使 得 np 大 于 m: 


ry CHT a EP ig, ， 是 比较 长 的 除法 问题 的 关键 ， 因 为 其 
中 的 计算 涉及 m 个 数位 的 操作 数 。 


暂且 假定 我 们 知道 如 何 计算 商 的 各 个 数位 ， 那 么 以 下 伪 代 码 勾勒 出 
了 长 除法 的 一 个 实现 。 


rem — Xx 最 高 位 前 补 0 

for (k=n - m; k >= 0; k--) { 
compute qk 
dq ~ y*qk 
q->digits[k] = qk; 


rem — rem - dq*b 


} 


re rem 





rem 的 初始 值 等 于 x， 最 高 位 前 补 0。 循 环 中 计算 了 商 的 nm+1 个 数位 ， 
首先 将 rem 的 前 m+1 个 数位 作为 被 除数 ， 除 以 m 个 数位 的 除数 ， 计 算得 到 
商 的 最 高 有 效 位 。 在 每 次 迭代 结束 时 ， 从 rem 减 去 qk 和 y 的 乘积 ， 这 会 将 
rem 减 少 一 个 数位 。 对 上 例 来 说 ，n=6，m=3， 循 环 体 执行 了 四 次 ，k 值 
分 别 为 6-3=3、2、1、0。 下 表 列 出 了 每 个 迭代 中 k、rem、qdk 和 dq 的 值 。 
第 二 列 中 的 下 划 线 标识 出 了 rem 中 除 以 y 的 前 绥 部 分 ， 即 296。 





k rem qk dq 

3 0615367 2 0592 

2 023367 0 0000 

1 23367 7 2072 

0 2647 8 2368 
279 








XP_div 需 要 空间 来 容纳 两 个 临时 变量 rem 和 dq 的 各 个 数位 ， 它 需要 
为 rem 分 配 n+1 个 字 节 、 需 要 为 dq 分 配 m+1 个 字 节 ， 这 是 tmp 必 须 至 少 为 
ntm+2 个 字 节 长 的 原因 。 在 上 述 的 盆 代 码 框架 中 填 入 实际 内 容 ， 用 于 长 
除法 的 代码 块 即 演变 为 如 下 的 形式 : 





(long division 


223) = 

int k; 

unsigned char *rem = tmp, *dq = tmp + n+ 1; 
assert(2 <= m && m <= n); 

memcpy(rem, x, n); 

rem[n] = 0; 

for (k=n - m; k >= 0; k--) { 

int qk; 


(compute 


qk, dq ~ y*qk 224) 
q[k] = qk; 


(rem — rem - dq*pbr 


225) 
} 


memcpy(r, rem, m); 


(fill out 


q and 


r with Os 


224) 


tmp[0..n] 容 纳 了 rem 的 n+1 个 数位 ， 而 tmp[n+1..n+1+m] 容 纳 了 dg 的 m+1 个 
数位 。 在 tmp[0..k+m] 中 ， 总 是 包含 rem 的 kt+m+1 个 数位 。 下 列 代 码 计算 

了 一 个 n -m + 1 个 数位 的 商 ， 和 一 个 m 个 数位 的 余数 ，q 和 r 中 其 余 的 数 
位 必须 都 设置 为 0: 


(fill out 


q and 


r with Os 


{ 
int i; 
for (i = n-m+1; i < nx; i++) 
q[i] = 0; 
for (i = m; i < my; i++) 
r[i] = 0; 
} 


到 这 里 ， 只 缺少 计算 商 的 各 个 数位 所 需 的 逻辑 。 一 个 简单 但 不 当 的 
方法 是 : 将 qk 的 初 值 设 置 为 b-1， 然 后 在 一 个 循环 中 ， 只 要 y * qk 大 于 
rem 的 前 m+1 个 数位 ， 束 将 qk 减 1: 


qk = BASE-1; 

dq ~ y*qk; 

while (rem[k..k+m] < dq) { 
qk--; 
dq ~ y*qk; 

} 


这 种 方法 太 慢 :该 循 环 可 能 需要 b-1 次 迭代 ， 每 个 达 代 需要 m 个 数位 的 乘 
法 和 m+1 个 数位 的 比较 。 更 好 的 方法 是 使 用 通常 的 整数 运算 更 精确 地 估 
计 gk 的 值 ， 并 在 估计 错误 时 进行 校正 。 实 际 上 ， 用 rem 的 前 三 个 数位 除 
以 y 的 前 两 个 数位 ， 即 可 得 到 对 qk 的 估计 值 ， 该 值 可 能 是 正确 的 ， 或 者 
比 正确 值 大 1。 因 而 ， 上 述 的 循环 可 以 丛 换 为 一 个 简单 的 测试 : 


(compute 


qk, dq ~ y*qk 224) = 


{ 
int 1; 
assert(2 <= m && m <= k+m && k+m <= n); 
(qk ~ y[m-2..m-1]/rem[k+m-2..k+m] 225) 
dq[m] = XP_product(m, dq, y, qk); 
for (i =m; i > 0; i--) 
if (rem[itk] != dg[i]) 
break; 
if (rem[it+k] < dg[i]) 
dq[m] = XP_product(m, dg, y, --qk); 
} 


上 述 代码 块 使 用 XP_product 计 算 y[0..m - 1] * qk， 将 结果 赋值 给 dq， 返 回 
最 终 的 进位 值 ， 即 dq 的 最 高 一 个 数位 。for 循 环 逐 数位 比较 rem[k..k+m] 

和 dq。 如 果 dq 大 于 rem 的 前 m+1 个 数位 ， 则 qk 比 实际 的 正确 值 大 1， 所 以 
将 qk 减 1 并 重新 计算 dgq。 


可 以 利用 普通 的 整数 除法 来 估算 qk: 


(qk ~ y[m-2..m-1]/rem[k+m-2..k+m] 225) = 
{ 
int km = k + m; 


unsigned long y2 = y[m-1]*BASE + y[m-2]; 


unsigned long r3 = rem[km]*(BASE*BASE) + 
rem[ km-1]*BASE + rem[km-2]; 

qk = r3/y2; 

if (qk >= BASE) 
qk = BASE - 1; 


r3 最 大 为 (b-1)b? +(b-1)b+(b-1)=b?_ -1=16777215, unsigned long 类 型 可 以 
容纳 r3。 这 个 计算 ， 实 际 上 限制 了 对 BASE 值 的 选择 。unsigned long 可 以 
容纳 小 于 232 的 值 ， 这 要 求 b3 -1<23 ， 因 此 BASE 必 须 小 于 210.6666 ， 即 
BASE 不 能 大 于 1625。 在 2 的 各 个 里 中 ，256 是 不 大 于 1625 的 最 高 次 震 ， 
而 且 刚 好 是 另 一 个 内 建 类 型 (unsigned char) 所 能 容纳 的 最 大 值 。 





解决 长 除法 问题 ， 最 后 一 步 是 从 rem 的 前 m+1 个 数位 中 减 去 dq， 这 
减 小 了 rem， 并 使 其 减少 一 个 数位 。 在 概念 上 ， 可 以 先 算出 dq 左 移 k 个 数 
位 后 的 值 ， 并 从 rem 减 去 该 值 ， 即 可 完成 该 减法 。 上 文 给 出 的 XP_sub， 
可 用 于 完成 这 个 减法 运算 ， 只 需要 将 指 回 适当 数位 的 指针 传递 给 
XP_Sub 即 可 : 





(rem — rem - dq*bk 


225) = 


{ 
int borrow; 
assert(0 <= k && k <= k+m); 
borrow = XP_sub(m + 1, &rem[k], &rem[k], dq, 0); 
assert(borrow == 0); 
} 


<compute qk, dq —y*qk 224> 中 的 代码 说 明 ， 可 以 通过 从 最 高 有 效 位 开始 
逐一 比较 各 个 数位 ， 来 比较 两 个 多 数位 的 数字 。XP_cmp 刚 好 是 用 这 个 
方法 来 比较 两 个 XP_T 参 数 的 : 


(functions 


217) += 
int XP_cmp(int n, T x, T y) { 


int i =n - 1; 
while (i > 0 && x[i] == y[i]) 


1--; 


return x[i] - y[i]; 


17.2.4 移 位 


XP 的 实现 中 ， 有 两 个 函数 可 以 将 XP_T 左 移 / 右 移 指定 数目 的 比特 
位 。 移 位 s 个 比特 位 ， 通 过 两 步 完 成 : 第 一 步 移 位 8 * (s/8) 个 比特 位 ， 
次 移动 一 个 字 市 ， 第 二 步 移 位 剩余 的 mod 8 个 比特 位 ， 一 次 完成 。 针 1 
设置 为 全 1 或 全 0 的 字 节 值 〈 即 0xff 或 0) ， 以 便 使 用 该 值 一 次 填充 一 个 字 
节 ， 如 下 所 示 。 











(functions 


217) += 

void XP_lshift(int n, T z, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift left by 


s/8 bytes 


226) 
s % 8; 
if (s > 0) 
(shift 


z left by 
s bits 


227) 
} 


图 17-1 说 明了 这 些 步骤 ， 图 中 原本 是 一 个 六 个 数位 的 XP_ T， 包 含 44 个 
值 为 1 的 比特 位 ， 在 左 移 13 个 比特 位 后 ， 形 成 了 一 个 八 个 数位 的 XP_T， 
在 右 侧 的 浅 色 阴 影 标 识 了 移 位 后 空 出 的 比特 位 ， 这 些 将 设置 为 fll。 


13%8 比特 位 


图 17-1 左 移 13 个 比特 位 


左 移 s%/8 个 字 节 ， 可 以 通过 下 列 赋值 操作 概述 。 


z[m+(S/8)..n-1] ~ © 
Z[s/8..m+(s/8)-1] - x[O..m-1] 
z[O..(s/8)-1] -~ fill. 


第 一 个 赋值 操作 ， 将 z 中 不 出 现 《〈 在 x 左 移 s/8 字 节 后 ) 的 数位 清 零 。 在 第 
二 个 赋值 操作 中 ，x; 复制 到 zgye BCR tlm AME; 第 三 个 赋值 
操作 ， 将 z 的 s/8 个 最 低 有 效 字 节 设置 为 们 。 这 些 赋值 操作 都 涉足 到 循 
环 ， 初 始 化 代码 会 处 理 n 小 于 m 的 情形 : 


























(shift left by 


s/8 bytes 


i =n - s/8 - 1; 
for ( ; j >= m + S/8; j--) 
z[j] = 0; 


for ( ; 1 >= Opis j--) 


z[j] = x[i]; 
for ( ; j >= 0; j--) 
z[j] = fill; 


在 第 二 步 中 ，s 已 经 简化 为 需要 移 位 的 比特 位 数目 。 


这 种 移 位 等 效 于 将 z 乘 以 2 ”， 然 后 将 z 的 s 个 最 低 有 效 比特 位 设置 为 
fill. 


(shift 


z left by 


s bits 


227) = 


XP_product(n, z, z, 1<<s); 
z[0] |= fill>>(8-s); 
} 


fill 是 0 或 0xFF， 因 此 fill >> (8-s) 形 成 了 s 个 填充 比特 位 ， 可 用 于 字 节 的 最 
低 s 个 比特 位 。 


右 移 也 使 用 了 一 个 类 似 的 两 步 过 程 : 第 一 步 右 移 %8 个 字 节 ， 第 二 步 
右 移 余 下 的 s mod 8 个 比特 位 。 


(functions 


217) += 

void XP_rshift(int n, T z, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift right by 


s/8 bytes 


228) 
s % 8; 
if (s > 0) 
(shift 


z right by 


s bits 


228) 
} 


将 一 个 六 个 数位 的 XP_T (包含 44 个 值 为 1 的 比特 位 〉， 右 移 13 个 比特 位 ， 
到 一 个 八 数位 的 XP_T 中 ， 这 一 过 程 说 明了 右 移 的 步骤 ， 如 图 17-2 所 
示 ， 左 侧 的 浅 色 阴影 同样 标识 了 空 出 和 过 多 的 比特 位 ， 这 些 比特 位 将 设 
A fill. 








+- 


W 


图 17-2 右 移 13 个 比特 位 


+} 


概述 右 移 过 程 的 三 个 赋值 操作 如 下 


z[0..m-(s/8)-1] ~ x[S/8..m-1] 
z[m-(S/8)..m-1] — fill 
z[m..n-1] ~ fill. 








第 一 个 赋值 操作 将 x; 复制 到 zye ， 首 移 复 制 最 低 有 效 字 节 ， 从 字 节 s/8 开 
始 复 制 。 第 二 个 赋值 操作 将 空 出 的 字 市 设置 为 和， 第 三 个 赋值 操作 将 z 
中 未 出 现在 x 中 的 数位 设置 为 f 了 1。 当然 ， 第 二 个 和 第 三 个 赋值 操作 可 以 
通过 同一 个 循环 完成 : 





(shift right by 


s/8 bytes 


228) = 


int i, j = 0; 

for (i = s/8; i <m && j < n; i++, j++) 
z[j] = x[i]; 

for ( ; j < n; j++) 


z[j] = fill; 


第 二 步 将 z 右 移 s 个 比特 位 ， 等 效 于 将 z 除 以 25 : 


(shift 


z right by 


s bits 


XP_quotient(n, z, z, 1<<s); 


z[n-1] |= fill<<(8-s); 





表达 式 fl] << (8-s) 形 成 了 s 个 填充 比特 位 ， 可 用 于 字 市 的 最 高 s 个 比特 
位 ， 可 以 按 位 或 到 z 的 最 高 有 效 字 节 中 。 


17.25 ”字符 品 转 换 


XP 的 最 后 二 个 函数 用 于 XP_T 与 字符 串 的 双 同 转换 。XP_fromstr 将 
字符 串 转 换 为 XP_T， 该 函数 可 处 理 的 字符 串 ， 首 先是 可 选 的 空格 ， 后 
接 一 个 或 多 个 数位 〈 数 位 值 受 指 定 基 数 的 限制 ， 基 数 的 范围 在 2 一 
36) 。 对 于 大 于 10 的 基数 ， 用 字母 来 表示 大 于 9 的 数位 。 在 过 到 非法 字 
符 或 0 字符 时 ， 或 乘法 的 进位 输出 非 零 时 ，XP_fromstr 停 止 扫描 字符 串 
BR 




















(functions 


217) += 


int XP_fromstr(int n, T z, const char *str, 
int base, char **end) { 


const char *p = str; 


assert(p); 
assert(base >= 2 && base <= 36); 


(skip white space 


229) 


if ( (*p is a digit in base 


229) ) { 
int carry; 


for ( ; (*p is a digit in base 


229) ; ptt) { 
carry = XP_product(n, z, z, base); 
if (carry) 
break; 
XP_sum(n, z, z, map[*p-'O']); 
} 


if (end) 
*end = (char *)p; 


return carry; 


} else { 
if (end) 
*end = (char *)str; 
return 0; 
} 


‘skip white space 


229) = 
while (*p && isspace(*p) ) 


per; 





如 果 end 不 是 NULL，XP fromstr 将 *end 设 置 为 指 问 停止 扫描 时 的 字符 。 


如 果 c 为 数位 字符 ，map[c-0] 是 对 应 的 数位 值 ， 例 如 ，map[F' - '0] 
为 15。 


(data 


229) = 


static char map[] = { 
©, 1, 2, 3, 4, 5, 6, 7, 8, 9, 
36, 36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 
36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 
}; 


在 ASCII 字 符 '0 和 'z 之 间 ， 对 于 少量 无 效 的 数位 字符 c 来 说 ，map[c - '0'] 
为 36。 这 样 ， 在 以 base 为 基数 时 ， 只 要 map[c - '0"] 小 于 base， 那 么 c 束 是 
一 个 合法 的 数位 字符 。 因 而 ，XP_fromstr 可 以 用 下 述 方式 来 测试 部 是 否 
为 数位 字符 : 


(*p is a digit in base 


229) = 


(*p && isalnum(*p) && map[*p-'O'] < base) 


XP_tostr (8 HH E E MN SEZ OR TT SEXIER RR, AOR aS 
数位 ， 当 然 ，XP_tostr 使 用 了 XP 接 口中 现 有 的 函数 来 执行 计算 。 


(functions 


217) += 
char *XP_tostr(char *str, int size, int base, 
int n, T x) { 


int i = 0; 


assert(str); 
assert(base >= 2 && base <= 36); 
do { 
int r = XP_quotient(n, x, x, base); 
assert(i < size); 
str[itt+] = 
"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ" [Yr]; 
while (n > 1 && x[n-1] == 0) 
n--; 
} while (n > 1 || x[0] != 0); 
assert(i < size); 
str[i] = '\0'; 


(reverse 


str 230) 


return str; 


y 


st PA oh FFE A BIA, AEX P_tostr Ze t RAI m BEG IK LEE FF 





逆转 过 来 。 


(reverse 


str 230) = 
{ 
int j; 
for (j = 0) j < -i; j++) { 


char c = str[j]; 


str[j] = str[i]; 


str[i] = c; 


17.3 扩展 阅读 


XP 中 大 部 分 算术 函数 都 直接 了 当地 实现 了 小 学 生 水 平 的 四 则 运算 
算法 。[Hennessy and Patterson，1994] 中 的 第 4 章 和 [Knuth，1981] 中 的 4.3 
节 都 描述 了 实现 算术 操作 的 经 典 算法 。[Knuth，1981] 很 好 地 综述 了 这 些 
算法 的 悠久 历史 。 


除法 的 实现 比较 困难 ， 因 为 在 计算 商 的 各 个 数位 时 ， 有 一 些 强加 的 
约束 。XP_div 中 使 用 的 算法 取 自 [Brinch-Hansen，1994]， 该 论文 包含 了 
对 “ 商 数位 估计 值 最 多 只 大 1 结论 的 证 明 。Brinch-Hansen 还 说 明了 ， 可 
以 通过 按 比 例 放 大 操作 数 ， 在 大 多 数 情 况 下 都 可 以 避免 校正 qk。 按 比例 
放大 ， 只 需要 一 次 额外 的 单数 位 乘法 和 除法 ， 但 在 大 多 数 情况 下 可 以 避 
免 《 因 dk 必须 减 1 而 导致 的 ) 第 二 次 乘法 运算 。 


17.4 习题 


17.1 实现 递归 式 除 法 算法 ， 并 对 照 XP_div 中 使 用 的 Brinch-Hansen 
算法 ， 比 较 算 法 执行 的 时 间 和 衬 间 性 能 。 是 否 在 某 些 情况 下 ， 递 归 算 法 
更 可 取 ? 

17.2 ”实现 [Hennessy and Patterson，1994] 的 第 4 章 中 描述 的 “ 移 位 相 
减 ? 式 除法 算法 ， 并 对 照 XP_div 中 使 用 的 Brinch-Hansen 算 法 ， 比 较 其 性 
能 。 

17.3”XP 接 口中 的 大 部 分 函数 ， 执 行 时 间 都 与 操作 数 中 数位 的 数目 
成 正比 。 因 而 ， 以 28 为 基数 来 表示 XP_T， 将 使 这 些 函 数 运 行 速度 提高 
到 原来 的 两 倍 。 但 除法 有 个 问题 ， 因 为 





(216 )3 -1=28 147 497 610 655. 


在 大 多 数 32 位 计算 机 上 该 值 都 大 于 ULONG_MAX， 无 法 使 用 普通 的 C 语 
言 整数 运算 (以 一 种 可 移植 的 方式 来 估算 商 的 数位 。 设 计 一 种 方法 绕 
过 这 个 问题 ， 使 用 2 ”为 基数 实现 XP 接口 ， 并 测量 这 种 做 法 带 来 的 好 
处 。 这 种 做 法 带 来 了 好 处 ， 但 是 否 值得 为 此 而 增加 除法 实现 的 复杂 性 ? 








17.4 ”针对 基数 232 ， 重 新 完成 习题 17.3。 


17.5 ”使 用 更 大 基数 如 2” 的 扩展 精度 算术 ， 通 常 更 容易 用 汇编 语 
言 实 现 ， 因 为 许多 机 器 提供 了 双 精 度 指 令 ， 通 种 也 很 容易 获得 进位 和 借 
位 值 。 而 且 ， 汇 编 语言 实现 也 总 是 更 快 。 请 读者 在 喜爱 的 计算 机 上 用 汇 




















编 语 言 重 新 实现 XP 接 口 ， 并 测定 其 在 速度 方面 的 改进 。 


17.6 ”实现 一 个 XP 函 数 ， 可 以 在 指定 范围 内 生成 均匀 分 布 的 随机 
数 。 





[1] 有 一 个 操作 数 只 有 单个 数位 。 一 一 译 者 注 


第 18 章 “任意 精度 算术 


本 章 摘 述 了 AP 接 口 ， 该 接口 提供 了 任意 精度 的 有 符号 整数 ， 以 及 
相关 的 算术 操作 。 不 同 于 XP_T，AP 提 供 的 整数 可 以 是 负数 或 正 数 ， 它 
们 可 以 包含 任意 数目 的 数位 。 可 以 表示 的 值 只 受 限 于 可 用 的 内 存 。 这 种 
整数 可 以 用 于 需要 在 极 大 的 范围 内 使 用 整数 值 的 应 用 程序 。 人 例如， 一些 
共同 基金 公司 以 百 分 之 一 美 分 〈 一 美元 的 110 000) 为 单位 来 跟踪 股票 
价格 ， 因 而 可 能 需要 以 百 分 之 一 美 分 为 单位 来 完成 所 有 的 计算 。 这 样 ， 
32 位 无 符号 整数 最 大 只 能 表示 $429 496.729 5， 对 于 一 些 资金 量 以 十 亿 
计 的 基金 来 说 ， 这 仅仅 是 九 牛 一 毛 。 











当然 ，AP 的 实现 使 用 了 XP 接 口 ， 但 AP 是 一 个 高 级 接口 : 它 只 暴露 
了 一 个 不 透明 类 型 ， 用 以 表示 任意 精度 的 有 符号 整数 。AP 导 出 了 相应 
的 函数 ， 来 分 配 并 释放 这 种 整数 ， 以 及 对 这 种 整数 执行 通常 的 算术 操 
作 。 它 还 实现 了 XP 忽略 的 那些 已 检查 的 运行 时 错误 。 大 多 数 应 用 程序 
都 应 该 使 用 AP 接口 或 下 一 章 描 述 的 MP 接口 。 











18.1 接口 


AP 接口 通过 不 透明 指针 类 型 ， 隐 藏 了 任意 精度 有 符号 整数 的 表示 


)= 
#ifndef AP_INCLUDED 
#define AP_INCLUDED 


#include <stdarg.h> 


#define T AP_T 


typedef struct T *T; 


(exported functions 


233) 


#undef T 


#endif 


除 明 确 注 明 的 情况 之 外 ， 向 该 接口 中 任 一 函数 传递 值 为 NULL 的 AP_T， 
都 造成 已 检查 的 运行 时 错误 。 





AP_T 实 例 由 以 下 函数 创建 


(exported functions 


233) = 
extern T AP_new(long int n); 
extern T AP_fromstr(const char *str, int base, 


char **end); 


AP_new 创 建 一 个 新 的 AP_T， 将 其 值 初始 化 为 n， 并 返回 该 实例 。 
AP_fromstr 也 创建 一 个 新 的 AP_T 实 例 ， 将 其 初始 化 为 通过 str 和 base 指 定 
的 值 ， 并 返回 该 实例 。AP_new 和 AP_fromstr 都 可 能 引发 Mem_Failed 异 
常 。 

AP_fromstr 类 似 C 库 中 的 strtol， 它 将 str 中 的 字符 串 解释 为 以 base 为 
基数 的 整数 。 它 在 处 理 过 程 中 ， 会 忽略 str 前 部 的 空格 ， 可 以 接受 一 个 可 
选 的 符号 ， 后 接 一 个 或 多 个 以 base 为 基数 的 数位 。 对 于 11 和 36 之 间 的 基 
数 来 说 ，AP_fromstr 将 小 写 或 大 号 字母 解释 为 大 于 九 的 数位 。base 小 于 2 
或 大 于 36， 则 为 已 检查 的 运行 时 错误 。 








如 果 end 不 是 NULL，*end 被 设置 为 指向 AP_fromstr 结 束 解 释 过 程 的 
字符 处 。 如 果 str 中 的 各 个 字符 不 是 基数 base 下 的 整数 ， 那 么 AP_fromstr 
将 返回 NULL， 并 将 *end 设 置 为 sr 〈 如 果 end 不 是 NULL ) 。str 是 








NULL， 则 造成 已 检查 的 运行 时 错误 。 
以 下 函数 


(exported functions 


233) += 

extern long int AP_toint(T x); 

extern char * AP_tostr(char *str, int size, 
int base, T x); 

extern void AP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


提取 并 输出 AP_T 实 例 表 示 的 整数 。AP_toint 返 回 一 个 long int， 其 符号 与 
x 相 同 ， 绝 对 值 等 于 xlmod (LONG_MAX+1)， 其 中 LONG_MAX 是 long 
int 可 以 表示 的 最 大 值 。 如 果 x 是 LONG_MIN (在 使 用 二 进 制 补 码 的 机 器 
上 ， 等 于 -LONG_MAX-1) , AP_tointi& [=|-((LONG_MAX+1) mod 
(LONG_MAX+1))， 即 为 0。 








AP _tostr 将 x 在 基数 base 下 的 字符 表示 填充 到 str 中 (以 0 结尾 〉 ， 并 
返回 str。 在 base 大 于 10 时 ， 大 写字 母 用 于 表示 大 于 9 的 数位 。base 小 于 2 
或 大 于 36， 则 为 已 检查 的 运行 时 错误 。 














如 果 str 不 是 NULL，AP tostr 将 向 str 中 填充 最 多 size 个 字符 。 如 果 
size 太 小 ， 则 造成 已 检查 的 运行 时 错误 : 即 x 的 字符 表示 加 上 一 个 0 字 





符 ， 需 要 的 空间 多 于 size 个 字符 。 如 果 str 是 NULL， 则 忽略 Size， 
AP _tostr 会 分 配 一 个 足够 大 的 字符 串 来 保存 x 的 表示 ， 并 返回 该 字符 串 。 
客户 程序 负责 释放 该 字符 串 。 在 st 是 NULL 时 ，AP tostr 可 能 引发 


Mem Failed 异常 。 








AP_fmt 可 以 用 作 一 个 转换 函数 ， 与 FEmt 接 口中 的 函数 协作 ， 来 格式 
化 AP_T。 它 消耗 一 个 AP_T 实 例 ， 并 根据 可 选 的 flags、width 和 precision 
来 格式 化 该 实例 ， 其 工作 方式 与 printf 限 定 符 %d 格 式 化 整数 参数 的 方式 
相同 。AP_fmt 可 能 引发 Mem_Failed 异 常 。app 或 flags 是 NULL， 则 为 已 
检查 的 运行 时 错误 。 


AP_T 实 例 通 过 下 列 函 数 释放 : 


‘exported functions 


233) += 


extern void AP_free(T *z); 


AP _ free 释放 *z 并 将 *z 设 置 为 NULL。 如 果 z 或 *z 为 NULL， 将 造成 已 检查 
的 运行 时 错误 。 


下 列 函 数 对 AP_T 实 例 执 行 算术 操作 。 每 个 函数 都 返回 一 个 AP_T 实 
例 作为 结果 ， 这 些 函数 部 可 能 引发 Mem_Failed 寞 第 。 


‘exported functions 


233) += 


extern T AP_neg(T x); 

extern T AP_add(T x, T y); 
extern T AP_sub(T x, T y); 
extern T AP_mul(T x, T y); 
extern T AP_div(T x, T y); 
extern T AP_mod(T x, T y); 
extern T AP_pow(T x, T y, T p); 


AP_negi|Fl-x, AP_addik|=lx+y, AP_subiklFlx-y, AP_mulik|Alx*y. Œ 
这 里 和 下 文中 ，x 和 y 代 表 变 量 x 和 y 表 示 的 整数 值 。AP_div 返 回 x/y， 而 
AP_mod 返 回 x mod y. BRAM ABA: 当 x 或 y 之 一 为 负数 时 ， 癌 负 无 穷 
大 舍 入 ， 否 则 同 0 舍 入 ， 因 此 余数 总 是 正 数 。 更 确切 地 说 ， 对 使 得 
w*y=Xx 的 实数 w 来 说 ，x/y 的 两 qd 是 不 大 于 w 的 最 大 整数 ， 而 余数 则 定义 为 
x-y*q。 该 定义 与 第 2 章 中 所 述 Arith 接 口 的 实现 是 相同 的 。 对 于 AP_div 和 
AP_mod， 如 果 y 为 0， 则 造成 已 检查 的 运行 时 错误 。 











当 p 为 NULL 时 ，AP_pow 返 回 x” 。 当 p 不 是 NULL 时 ，AP_pow 返 回 
(xy ) mod p。y 为 负数 ， 或 p 不 是 NULL 且 小 于 2， 则 造成 已 检查 的 运行 时 
错误 。 





下 述 便捷 函数 


(exported functions 


233) += 
extern T AP_addi(T x, long int y); 
extern T AP_subi(T x, long int y); 
extern T AP_muli(T x, long int y); 
extern T AP_divi(T x, long int y); 


extern long AP_modi(T x, long int y); 


类 似 于 上 面 描述 的 函数 ， 但 使 用 long int 类 型 来 表示 y。 例 如 ，AP_addi(x， 
y) 等 效 于 AP_add (x，AP_new(y))。 除 法 和 取 模 运算 的 规则 ， 与 AP_div 和 
AP_mod 相 同 。 这 些 函 数 都 可 能 引发 Mem_Failed 异 凶 。 


AP_T 可 以 用 下 述 函 数 进行 移 位 操作 : 


(exported functions 


233) += 
extern T AP_lshift(T x, int s); 


extern T AP_rshift(T x, int s); 


AP_lshift 返 回 x 左 移 s 个 比特 位 后 得 到 的 AP_T 实 例 ， 该 值 等 于 x 乘 以 25 
AP_rshift 返 回 x 右 移 s 个 比特 位 后 得 到 的 AP_T 实 例 ， 该 值 等 于 x 除 以 25 。 
这 两 个 函数 的 返回 值 与 x 符号 相同 。s 为 负数 ， 则 造成 已 检查 的 运行 时 错 
误 ， 移 位 操作 可 能 引发 Mem_Failed 异 常 。 





AP_T 通 过 下 列 函 数 比 较 


(exported functions 


233) += 


extern int AP_cmp (T x, T y); 


extern int AP_cmpi(T x, long int y); 


对 于 x<y、x=y、x>y 的 情形 ， 这 两 个 函数 都 会 分 别 返回 一 个 小 于 0、 等 于 
0、 大 于 0 的 整数 。 


18.2 例子: 计算 器 


一 个 可 完成 任意 精度 计算 的 计算 器 ， 说 明了 AP 接口 的 用 法 。 下 一 
节 摘 述 了 AP 接 口 的 实现 ， 其 中 说 明了 XP 接口 的 使 用 。 


计算 器 calc， 使 用 了 波兰 后 级 表示 法 (Polish suffix notation) : {A 
被 推 入 栈 上 ， 运 算 符 将 其 操作 数 从 栈 中 弹出 ， 并 将 运算 结果 再 次 推 入 栈 
E. 一 个 值 由 一 个 或 多 个 连续 的 十 进 制 数位 组 成 ， 支 持 的 运算 符 如 下 。 


^n Wa 

d 复制 栈 项 部 的 值 

p 输出 栈 项 部 的 值 

f 自 项 回 下 ， 输 出 栈 上 所 有 的 值 
q 退出 





空格 字符 用 于 分 隅 值 ， 其 他 情况 下 忽略 空格 ， 其 他 字符 被 作为 无 法 识别 
的 运算 符 处 理 。 栈 的 大 小 只 受 可 用 内 存 的 限制 ， 但 发 生 栈 下 溢 时 会 输出 
ZTE AS 


calc 是 一 个 简单 程序 ， 有 三 个 主要 任务 : 解释 输入 、 计 算 值 、 管 理 


栈 。 


(calc.c 


= 
#include <ctype.h> 
#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
#include "stack.h" 
#include "ap.h" 


#include "fmt.h" 


(calc data 


236) 


(calc functions 


236) 


含 stack.h 头 文件 表明 ，calc 使 用 第 2 章 描 述 的 Stack 接 口 来 实现 栈 。 


(calc data 


236) = 


Stack_T sp; 


(initialization 


236) = 


sp = Stack_new(); 


在 sp 为 空 时 calc 不 能 调用 Stack_pop， 因 此 它 将 所 有 的 栈 弹 出 操作 封装 到 
一 个 函数 中 ， 在 其 中 检查 栈 下 滋 : 


(calc functions 


236) = 
AP_T pop(void) { 
if (!Stack_empty(sp) ) 
return Stack_pop(sp); 
else { 


Fmt_fprint(stderr, "?stack underflow\n"); 


return AP_new(0); 


该 函数 总 是 返回 一 个 AP_T 实 例 《〈 即 使 栈 为 空 ) ， 这 简化 了 calc 中 其 他 处 
的 错误 检测 。 


calc 中 的 主 循环 读 取 下 一 个 “标记 ”一 一 值 或 运算 符 ， 并 据 此 执行 对 
应 的 操作 : 


(calc functions 


236) += 


int main(int argc, char *argv[]) { 


int c; 


(initialization 


236) 
while ((c = getchar()) != EOF) 
switch (c) { 


(cases 


237) 
default: 
if (isprint(c)) 
Fmt_fprint(stderr, "?'%c'", c); 
else 
Fmt_fprint(stderr, "?'\\%030'", c); 
Fmt_fprint(stderr, " is unimplemented\n") ; 


break; 


} 


‘clean up and exit 


236) 


‘clean up and exit 


236) = 


(clear the stack 


239) 


Stack_free(&sp); 


return EXIT_SUCCESS; 





输入 字符 或 者 是 空格 、 或 者 是 值 的 第 一 个 数字 、 或 者 是 运算 符 ， 其 他 的 
输入 字符 视 为 错误 ， 由 Switch 语句 中 的 default 子 句 处 理 。 衬 格 忽略 即 
可 : 


(cases 


237) = 
case ' ': case '\t': case '\n': case '\f': case '\r': 


break; 


数字 字符 是 值 的 开始 ， 从 第 一 个 数字 字符 开始 ，calc 将 其 后 的 各 个 
数字 字符 者 收集 到 一 个 缓冲 区 中 ， 使 用 AP_fromstr 将 这 一 连 串 数字 字符 
转换 为 AP_T 实 例 : 


(cases 


237) += 

case '0': case '1': case '2': case '3': case '4': 

case '5': case '6': case '7': case '8': case '9': { 
char buf[512]; 


(gather up digits into 


buf 239) 
Stack_push(sp, AP_fromstr(buf, 10, NULL)); 


break; 


每 个 运算 符 都 从 栈 上 弹出 零 或 多 个 操作 数 ， 压 入 零 或 多 个 结果 。 其 
中 ， 加 法 颇具 代表 性 : 


(cases 


237) += 
case 't': { 


(pop 


x and 


y off the stack 


237) 
Stack_push(sp, AP_add(x, y)); 


(free 


X and 


X and 


y off the stack 


237) = 


AP_T y = pop(), x = pop(); 


(free 


X and 


y 237) = 
AP_free(&x); 
AP_free(&y); 





很 容易 犯 下 将 同一 AP_T 实 例 多 次 压 栈 的 错误 ， 这 种 情况 下 ， 基 本 上 不 
可 能 知道 该 释放 哪个 AP_T。 上 述 代码 给 出 了 一 个 简单 的 协议 ， 以 避免 
该 问题 ， 只 有 入 栈 的 AP_T 实 例 才 是 “持久 ”的 ， 其 他 的 都 会 通过 调用 
AP free 释 放 。 


减法 和 乘法 在 形式 上 类 似 于 加 法 : 


(cases 


237) += 


X and 


y off the stack 


237) 
Stack_push(sp, AP_sub(x, y)); 


(free 


X and 


case '*': { 


(pop 


X and 


y off the stack 


237) 
Stack_push(sp, AP_mul(x, y)); 


(free 


x and 


除法 和 取 模 也 比较 简单 ， 但 必须 防止 除数 为 0 的 情形 。 


(cases 


237) += 
case '/': { 


(pop 


x and 


y off the stack 


237) 
if (AP_cmpi(y, 0) == 0) { 
Fmt_fprint(stderr, "?/ by O\n"); 
Stack_push(sp, AP_new(0)); 
} else 
Stack_push(sp, AP_div(x, y)); 


(free 


X and 


case '%': { 


(pop 


x and 


y off the stack 


237) 
if (AP_cmpi(y, 0) == 0) { 
Fmt_fprint(stderr, "?%% by O\n"); 
Stack_push(sp, AP_new(0)); 
} else 


Stack_push(sp, AP_mod(x, y)); 


(free 


X and 


PERIE DID LEE TE ZHI Fs AX 


(cases 


237 += 
case 'A': { 


(pop 


x and 


y off the stack 


237) 
if (AP_cmpi(y, ©) <= 0) { 
Fmt_fprint(stderr, "?nonpositive power\n"); 
Stack_push(sp, AP_new(0)); 
} else 
Stack_push(sp, AP_pow(x, y, NULL)); 


(free 


X and 


FARKE, eB ERG Oe PKA AEM PA 28 
后 将 该 值 及 其 副本 压 栈 。 复 制 AP_T 实 例 的 唯一 途径 是 将 其 与 0 做 加 法 。 








(cases 


237) += 

case 'd': { 
AP_T x = pop(); 
Stack_push(sp, x); 
Stack_push(sp, AP_addi(x, 0)); 


break; 


输出 一 个 AP_T 实 例 ， 需 要 将 AP_cvt 关 联 到 一 个 格式 码 ， 并 在 传递 
给 Fmt_fmt 的 格式 串 中 使 用 该 格式 码 ，calc 使 用 D 作 为 格式 码 。 


(initialization 


236) += 


Fmt_register('D', AP_fmt); 


(cases 


237) += 


case 'p': { 


AP_T x = pop(); 
Fmt_print("%D\n", x); 
Stack_push(sp, x); 


break; 


输出 栈 上 所 有 值 的 过 程 ， 揭 示 了 Stack 接 口 的 一 个 弱点 : 无 法 访问 
栈 顶 以 下 的 值 ， 或 获取 栈 上 值 的 总 数 。 一 个 更 好 的 栈 接口 ， 可 能 还 需要 
包括 诸如 Table_length 和 Table map 之 类 的 函数 ， 没 有 这 些 函 数 ，calc 必 
须 创建 一 个 临时 栈 ， 将 主 栈 的 内 容 换 入 临时 栈 中 ， 在 此 过 程 中 分 别 输出 
各 个 值 ， 而 后 再 将 临时 栈 的 内 容 换 入 主 栈 。 





(cases 


237) += 
case 'f': 
if (!Stack_empty(sp)) { 
Stack_T tmp = Stack_new(); 
while (!Stack_empty(sp)) { 
AP_T x = pop(); 
Fmt_print("%D\n", x); 
Stack_push(tmp, x); 
} 
while (!Stack_empty(tmp) ) 
Stack_push(sp, Stack_pop(tmp) ); 


Stack_free(&tmp); 
} 


break; 
Switch 语句 中 余下 的 case 子 句 ， 分 别处 理 取 反 、 清 空 栈 、 退 出 等 操作 : 


(cases 


AP_T x = pop(); 
Stack_push(sp, AP_neg(x)); 
AP_free(&x); 


break; 


case 'c': (clear the stack 


239) break; 


case 'q': (clean up and exit 


236) 


(clear the stack 


239) = 
while (!Stack_empty(sp)) { 


AP_T x = Stack_pop(sp); 
AP_free(&x); 


calc 在 清空 栈 时 ， 会 释放 栈 中 的 AP_T 实 例 ， 以 避免 出 现 无 法 访问 、 存 储 
空间 永 不 释放 的 对 象 。 


calc 的 最 后 一 个 代码 块 将 一 连 串 数字 字符 读 取 到 buf 中 : 


‘gather up digits into 


buf 239) = 
{ 


int i = 0; 
for ( ; c != EOF && isdigit(c); c = getchar(), i++) 
if (1 < (int)sizeof (buf) - 1) 
buf[i] = c; 
if (i > (int)sizeof (buf) - 1) { 


1 = (int)sizeof (buf) - 1; 


Fmt_fprint(stderr, 
"integer constant exceeds %d digits\n", i); 
} 
buf[i] = 0; 
if (c != EOF) 


ungetc(c, stdin); 


如 该 代码 所 示 ，calc 遇 到 超 长 的 数字 时 会 输出 错误 信息 并 截断 。 


18.3 ”实现 


AP 接 口 的 实现 ， 说 明了 XP 接口 的 典型 用 法 。 对 于 有 符 写 数 ，AP 接 
口 使 用 了 一 种 符号 一 绝对 值 的 表示 : 一 个 AP_T 实 例 指 疝 一 个 结构 ， 其 
中 包括 该 数 的 符号 及 其 绝对 值 〈 一 个 XP_T 实 例 ) : 


(ap.c 


Y= 

#include <ctype.h> 
#include <limits.h> 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "ap.h" 
#include "fmt.h" 
#include "xp.h" 


#include "mem.h" 
#define T AP_T 


struct T { 


int sign; 


int ndigits; 

int size; 

XP_T digits; 
3; 


(macros 


242) 


(prototypes 


242) 


(static functions 


241) 


(functions 


241) 


sign 为 1 或 者 -1。size 是 分 配 的 数位 的 数目 ，digits 指 向 这 些 数位 ， 它 可 能 





大 于 ndigits， 即 当前 使 用 数位 的 数目 。 即 ， 一 个 AP_T 实 例 表 示 一 个 数 

值 ， | .ndigits-1] 中 的 XP_T 实 例 给 出 。AP_T 总 是 规 

格 化 的 : 其 最 高 有 效 数位 总 是 非 零 值 ， 除 非 这 个 AP_T 实 例 本 身 表 示 0。 

因而 ， pike 通常 小 于 size。 图 18-1 给 出 了 一 个 11 数 位 的 AP_T 实 例 ， 在 

小 问 序 计算 机 《〈 字 宽 32 位 ， 字 符 位 宽 8 位 ) 上 表示 的 数值 为 751 702 468 
129。digits 数 组 中 不 使 用 的 元 素 以 阴影 表示 。 


5 


11 


Eh 
O E 





sign 







ndigits 


size 





digits 







2118-1 489751 702 468 129 的 AP_T 实 例 的 小 端 序 布局 


AP _ T 实 例 通 过 下 列 函 数 分 配 : 


(functions 


241) = 
T AP_new(long int n) { 
return set(mk(sizeof (long int)), n); 


} 


该 函数 调用 了 静态 函数 mk 完成 实际 分 配 操作 ，mk 分 配 了 一 个 可 容纳 Size 
个 数位 的 AP_T 实 例 ， 并 将 其 初始 化 为 0。 


(static functions 


241) = 
static T mk(int size) { 
T z = CALLOC(1, sizeof (*z) + size); 
assert(size > 0); 
Z->sign = 1; 
Z->size = size; 
z->ndigits = 1; 
z->digits = (XP_T)(z + 1); 


return Z; 


在 符号 一 绝对 值 的 表示 法 中 ，0 有 两 种 表示 ， 按 照 惯 例 ，AP 接 口 只 使 用 


正 数 表示 ， 如 mk 中 的 代码 所 示 。 


AP_new 调 用 静态 函数 set 将 AP_T 实 例 初 始 化 为 long 
值 ，set 照 例 将 long int 类 型 的 最 小 值 作为 特例 处 理 : 


(static functions 


241) += 
static T set(T z, long int n) { 


if (n == LONG_MIN) 


int 类 型 参数 的 


XP_fromint(z->size, z->digits, LONG_MAX + 1UL); 
else if (n < 0) 

XP_fromint(z->size, z->digits, -n); 
else 

XP_fromint(z->size, z->digits, n); 
Z->sign =n<0O0? -1: 1; 


return normalize(z, z->size); 


对 z->sign 的 赋值 是 一 个 惯用 法 ， 以 确保 sign 的 值 是 1 或 -1，0 的 sign 值 为 
1。XP_T 实 例 是 非 规 格 化 的 ， 因 为 其 最 高 有 效 数 位 可 能 为 0。 当 一 个 AP 
函数 生成 的 XP_T 实 例 可 能 非 规格 化 的 时 候 ， 它 可 以 调用 normalize 计 算 
正确 的 ndigits 字 段 ， 来 修正 这 种 情况 : 


(static functions 


241) += 
static T normalize(T z, int n) { 
z->ndigits = XP_length(n, z->digits); 


return Z; 


(prototypes 


242) = 


static T normalize(T z, int n); 


AP_T 实 例 通 过 下 列 函 数 释放 : 


(functions 


241) += 

void AP_free(T *z) { 
assert(zZ && *Z); 
FREE(*Z ) ， 

} 


AP_new 是 分 配 AP_T 实 例 的 唯一 途径 ， 因 此 ， 让 AP free“ 知 道 ” 结 构 本 身 
和 digit 数 组 的 空间 是 只 调用 一 次 分 配 操作 得 到 的 ， 事 实 上 是 安全 的 。 


18.3.1 取 反 和 乘法 











取 反 是 最 容易 实现 的 算术 操作 ， 它 说 明了 在 符号 一 绝对 值 表示 法 下 
会 重复 出 现 的 一 个 问题 : 


(functions 


241) += 
T AP_neg(T x) { 


TZ; 


assert(x); 

Z = mk(x->ndigits); 

memcpy(z->digits, x->digits, x->ndigits); 
zZ->ndigits = x->ndigits; 

Z->Sign = iszero(z) ? 1 : -x->sign; 


return Z; 


(macros 


242) = 


#define iszero(x) ((x)->ndigits==1 && (x)->digits[0]==0) 


对 x 取 反 只 需 复 制 值 并 翻转 符号 即 可 ， 值 为 0 的 情况 下 例外 。iszero 宏 利 
用 了 AP_T 实 例 均 为 规格 化 的 约束 : 表示 0 的 AP_T 实 例 只 会 有 一 个 数 


DE 


x*y 的 绝对 值 是 |x|"|y|， 乘 积 包含 的 数位 的 数目 ， 是 x 和 y 中 的 数位 数 
之 和 。 在 x 和 y 符 号 相同 时 ， 或 当 x 和 y 中 人 至少 有 一 个 为 0 时 ， 乘 积 结果 是 
正 数 ， 人 否则 为 负数 。 符 号 值 为 -1 或 1， 因 此 下 述 比 较 


(x and 


y have the same sign 


243) = 


((x->sign4y->sign) == 0) 


在 x 和 y 符 号 相同 时 为 tue， 否 则 为 false。AP_mul 调 用 XP_mul 计 算 |x| 
‘yl, FRITS AT: 





(functions 


241) += 
T AP_mul(T x, T y) i{ 


T: Z3 


assert(x); 

assert(y); 

z = mk(x->ndigits + y->ndigits); 

XP_mul(z->digits, x->ndigits, x->digits, y->ndigits, 


y->digits); 


normalize(z, z->size); 
Z->Sign = iszero(z) 


|| <x and 


y have the same sign 


243) ? 1 : -1; 
return Z; 


} 


回忆 前 文 可 知 ，XP_mul 计 算 了 z=z+x:y， 而 mk 将 z 初 始 化 为 规格 化 的 0。 
18.3.2 ”加 减法 


加 法 更 为 复杂 ， 因 为 其 中 可 能 需要 减法 ， 这 取决 于 x 和 y 的 符号 和 
值 。 下 面 综述 了 各 种 情况 。 










(ixl +f) VaR a 
-(|x|- y) if y<|x| 
X 一 | if x > |y] 
-(|yj-x) if x <ly] 


当 x 和 y 均 为 非 负 值 时 ，|x|+ly| 等 于 x+y， 因 此 对 角 线 上 的 两 种 情形 ， 
可 以 通过 计算 |x|+ly| 并 将 结果 的 符号 设置 为 x 的 符号 来 完成 。 与 x 和 y 中 的 
较 长 者 相 比 ， 结 果 可 能 多 出 一 个 数位 。 


(functions 


241) += 
T AP_add(T x, T y) { 


T Z; 


assert(x); 
assert(y); 


if ( (x and 


y have the same sign 


243) ) { 
z = add(mk(maxdigits(x,y) + 1), x, y); 
Z->Ssign = iszero(z) ? 1 : xX->sign; 
} else 


(set 


x+y when 


X and 


y have different signs 


244) 


return Z; 


(macros 


242) += 


#define maxdigits(x, y 


) (x 


)->ndigits > (y 


)->ndigits ? \ 


(x 


)->ndigits : (y 


)->ndigits) 


add 调 用 XP_add 完 成 实际 的 加 法 操作 : 


(static functions 


241) += 
static T add(T z, T x, T y) { 


int n = y->ndigits; 


if (x->ndigits < n) 
return add(z, y, x); 
else if (x->ndigits > n) { 
int carry = XP_add(n, z->digits, x->digits, 
y->digits, 0); 
z->digits[z->size-1] = XP_sum(x->ndigits - n, 
&z->digits[n], &x->digits[n], carry); 
} else 
z->digits[n] = XP_add(n, z->digits, x->digits, 
y->digits, 0); 
return normalize(z, z->size); 


} 


add 中 的 第 一 个 测试 确保 x 是 较 长 的 操作 数 。 如 果 x 比 y 长 ，XP_add 计 算 n 
数位 的 和 保存 到 z->digits[0..n-1] 中 ， 并 返回 进位 值 。 该 进位 值 与 x- 
>digits[n..x->ndigits-1] 的 和 ， 叉 在 计算 后 保存 到 z->digits [n..z->size-1]。 
如 果 x 和 y 数 位 的 数目 相同 ， 如 前 例 XP_add 计 算 n 数 位 的 和 ， 进 位 值 即 为 z 
的 最 高 有 效 数 位 。 


加 法 的 其 他 情形 也 可 以 简化 。 在 x<0，y>0， 且 |x|>|y| 时 ，x+y 的 绝对 


值 是 |x|-ly|， 和 的 符号 为 负 。 在 x>0，y<0， 且 |x|>ly| 时 ，x+y 的 绝对 值 也 

是 |x|-|ly|， 但 其 符号 为 正 。 在 这 两 种 情况 下 ， 结 果 的 符号 都 与 x 的 符号 相 
同 。 如 下 所 述 ，sub 和 cmp 分 别 执行 减法 和 比较 操作 。 结 果 的 数位 数目 与 
x 相同 。 





(set 


x+y when 


x and 


y have different signs 


244) = 


if (cmp(x, y) > 0) { 


z = sub(mk(x->ndigits), x, y); 


Z->Ssign = iszero(z) ? 1 : xX->sign; 


在 x<0，y>0， 且 |x|<|y| 时 ，x+y 的 绝对 值 是 |y|-|x|， 和 的 符号 为 正 。 在 
x>0，y<0， 且 |x|<|y| 时 ，x+y 的 绝对 值 也 是 |y|-|x|， 但 其 符号 为 负 。 在 这 两 
种 情况 下 ， 结 果 的 符号 都 与 x 的 符号 相反 ， 其 数位 数目 与 y 相 同 。 





(set 


x+y when 


X and 


y have different signs 


244) += 
else { 
z = sub(mk(y->ndigits), y, x); 


z->sign = iszero(z) ? 1 : -x->sign; 





减法 同样 得 益 于 类 似 的 分 析 。 下 表 给 出 了 减法 操作 的 各 种 情况 。 





y<0 


-(ix| - yi) if [xl > |y 
Iyl -ix| if |x] < |y 


y20 






—(|x| + y) 





-(y-xX) ifxey 


这 里 ， 非 对 角 线 情形 都 比较 容易 ， 只 需要 计算 x+ly|， 并 将 结果 的 
符号 设置 为 x 的 符号 ， 即 可 处 理 : 


(functions 


241) += 
T AP_sub(T x, T y) Hi 


T Z; 


assert(x); 


assert(y); 


if (! (x and 


y have the same sign 


243) ) { 
z = add(mk(maxdigits(x,y) + 1), x, y); 
Z->Sign = iszero(z) ? 1 : xX->sign; 
} else 
(set 
z to 
x-y when 


x and 


y have the same sign 


245) 
return Z; 


} 


对 角 线 情形 取决 于 x 和 y 相 对 大 小 。 当 |x|>|ly| 时 ，x-y 的 绝对 值 是 |x|-ly|， 其 
符号 与 x 相同 ， 当 |x|<|y| 时 ，x-y 的 绝对 值 是 |y|-|x|， 而 其 符号 与 x 相反 。 


(set 


z to 


x-y when 


X and 


y have the same sign 


245) = 
if (cmp(x, y) > 0) { 
z = sub(mk(x->ndigits), x, y); 
Z->Sign = iszero(z) ? 1 : x->sign; 
} else { 
z = sub(mk(y->ndigits), y, x); 


z->sign = iszero(z) ? 1 : -x->sign; 


类 似 于 add，sub 也 调用 XP 函数 来 实现 减法 ， 其 中 y 不 大 于 x。 


(static functions 


241) += 
static T sub(T z, T x, T y) {4 


int borrow, n = y->ndigits; 


borrow = XP_sub(n, z->digits, x->digits, 
y->digits, 0); 


if (x->ndigits > n) 


borrow = XP_diff(x->ndigits - n, &z->digits[n], 
&xX->digits[n], borrow); 

assert(borrow == 0); 

return normalize(z, z->size); 


} 


当 x 比 y 长 时 ， 对 XP_sub 的 调用 计算 了 n 数 位 的 差 值 ， 并 保存 到 z- 
>digits[0..n-1] 中 ， 同 时 返回 借 位 值 。x->digits[n..x->ndigits-1] 与 该 借 位 值 
的 产值 ， 则 通过 XP_diff 计 算 ， 保 存 到 z->digits[n..z->size-1] 中 ， 最 终 的 供 
位 值 为 0， 因 为 调用 sub 时 ，|x|z|y| 总 是 成 立 的 。 如 果 x 和 y 数 位 数 日 相 

同 ， 同 样 使 用 XP_sub 计 算 n 数 位 的 差 值 ， 但 借 位 值 不 会 向 高 位 传播 。 











18.3.3 ”除法 


除法 类 似 于 乘法 ， 但 舍 入 规则 使 除法 变 得 比较 复杂 。 当 x 和 y 符 号 相 
同时 ， 商 为 |x/ly| 且 是 正 数 ， 余 数 为 |xlmod|y| H 。 当 x 和 y 符 号 不 同时 ， 商 
是 负数 ， 其 绝对 值 为 |xM/ly|〈 当 |x|lmodly| 为 0 时 ) 或 zl/lyl+1《〈 当 [xmodly| 不 
为 0 时 ) 。 当 |xlmodly| 为 0 时 ， 余 数 为 xmodly|， 人 否则 余数 为 yj- 
(|xlmod|y|)。 因 而 余数 总 是 正 数 。 商 和 余数 的 数位 数目 ， 最 多 时 ) 分 
别 与 x 和 y 的 数位 数目 相同 。 





(functions 


241) += 


T AP_div(T x, T y) { 


Tq, r; 


(q - X/Y, r e- x mod y 


246) 
if (! (x and 


y have the same sign 


243) && !iszero(r)) { 
int carry = XP_sum(q->size, q->digits, 
q->digits, 1); 
assert(carry == 0); 
normalize(q, q->size); 
} 
AP_free(&r); 


return q; 


246) = 
assert(x); 
assert(y); 
assert(!iszero(y)); 


r = mk(y->ndigits); 


{ 
XP_T tmp = ALLOC(x->ndigits + y->ndigits + 2); 
XP_div(x->ndigits, q->digits, x->digits, 
y->ndigits, y->digits, r->digits, tmp); 
FREE(tmp ) ， 
} 


normalize(q, q->size); 
normalize(r, r->size); 
q->sign = iszero(q) 


|| <x and 


y have the same sign 


243) ? 1 : -1; 


在 x 和 y 符 号 不 同时 ，AP_div 并 不 校正 余数 ， 因 为 该 函数 会 丢弃 余数 。 
AP_mod 的 行为 刚好 相反 : 它 只 校正 余数 ， 而 丢弃 商 。 


(functions 


241) += 
T AP_mod(T x, T y) { 


Tq, r; 


(q ~ x/y, r — x mod y 


246) 
if (! (x and 


y have the same sign 


243) && !iszero(r)) { 
int borrow = XP_sub(r->size, r->digits, 


y->digits, r->digits, 0); 


assert(borrow == 0); 
normalize(r, r->size); 
} 
AP_free(&q); 


return r; 


18.3.4 HU 


当 第 三 个 参数 p 为 NULL 时 ，AP_pow 返 回 x” ”。 当 p 不 是 NULL 时 ， 
AP_pow 返 回 Cxy ) mod p- 


(functions 


241) += 
T AP_pow(T x, T y, T p) { 
T Z; 


assert(x); 

assert(y); 

assert(y->sign == 1); 

assert(!p || p->sign==1 && !iszero(p) && !isone(p)); 


(special cases 


248) 
if (p) 


(Ze XY 


mod p 


249) 


else 


(Ze XY 


248) 


return Z; 


(macros 


242) += 


#define isone(x 


) C(x 


)->ndigits==1 && (x)->digits[0]==1) 


为 计算 z=x” ， 一 种 容易 采用 的 做 法 是 将 z 设 置 为 1， 连 续 y 次 用 x 乘 以 z。 
其 问题 在 于 ， 如 果 y 很 大 ， 比 方 说 y 的 十 进 制 表示 有 200 个 数位 ， 那 么 这 
种 方法 花费 的 时 间 ， 将 远 超 过 宇宙 的 年 龄 。 数 学 规则 有 助 于 简化 计算 : 


， (ory = (xX%2)(x%2) AUR x Hy BBE 


x xb = (x? x”? x 否则 





这 些 规则 使 得 我 们 可 以 通过 递归 方式 实现 AP_pow， 并 将 中 间 结 果 乘 方 

或 乘积 即 可 。 递 归 的 深度 〈 以 及 由 此 得 出 的 操作 步 数 ) 与 lg y 成 正比 。 

当 x 或 y 为 0 或 1 时 ， 弟 归 过 程 到 达 最 低 点 ， 因 为 0Y =0，17 =1, x? =1, x! 
=X。 前 三 种 特例 处 理 如 下 : 


(special cases 


248) = 
if (iszero(x)) 

return AP_new(0); 
if (iszero(y)) 

return AP_new(1); 
if (isone(x) ) 


return AP_new( <y is even 


248) ? 1 : x->sign); 


(y is even 


248) = 
(((y)->digits[0]&1) == 0) 


递归 过 程 实现 了 对 第 四 个 特例 以 及 上 述 方程 式 描述 的 两 种 情形 的 处 
H, 


(Z — X 


248) = 

if (isone(y) ) 
z = AP_addi(x, 0); 

else { 
T y2 = AP_rshift(y, 1), t = AP_pow(x, y2, NULL); 
z = AP_mul(t, t); 
AP_free(&y2); 
AP_free(&t); 


if (! (y is even 


248) ) { 
z = AP_mul(x, t = z); 


AP_free(&t); 


y 是 正 数 ， 因 此 将 其 右 移 1 位 ， 相 当 于 计算 了 y/2。 中 间 结 果 y/2、xY 和 
(XY (xd? ) 都 被 释放 ， 以 避免 出 现 无 法 访问 的 内 存 。 


在 p 不 是 NULL 时 ，AP_pow 计 算 了 xy mod p。 当 p>1 时 ， 我 们 实际 上 
不 能 计算 x” ， 因 为 该 值 可 能 太 大 ， 例 如 ， 如 有 果 X 的 十 进 制 表示 有 10 个 数 
位 ， 而 y 为 200， 结 果 xY ”的 数位 数 ， 可 能 比 罕 宙 中 的 原子 数 还 多 ， 但 x 
mod Pp 实际 上 是 一 个 小 得 多 的 数 。 可 使 用 下 述 关 于 模 乘 法 的 数学 规则 ， 
来 避免 出 现 过 大 的 数字 : 





(x-y) mod p=((x mod p):(y mod p)) mod p 





AP _ mod 和 静态 函数 mumod 可 协同 实现 该 规则 。mulmod 使 用 AP_mod 和 
AP_mul 来 实现 x.y mod p， 请 注意 释放 临时 乘积 x*y。 


(static functions 


241) += 
static T mulmod(T x, T y, Tp) { 
T z, xy = AP_mul(x, y); 
z = AP_mod(xy, p); 
AP_free(&xy); 


return Z; 


p 不 是 NULL 时 ，AP_pow 的 代码 与 p 为 NULL 时 的 代码 几乎 相同 ， 只 
是 调用 了 mulmod 来 执行 乘法 ， 并 将 p 传 递 给 对 AP_pow 的 递归 调用 ， 且 
在 y 为 奇数 时 使 用 mod p 来 缩减 x。 


(zZz e XY 


mod p 


249) = 

if (isone(y) ) 
z = AP_mod(x, p); 

else { 
T y2 = AP_rshift(y, 1), t = AP_pow(x, y2, p); 
z = mulmod(t, t, p); 
AP_free(&y2); 
AP_free(&t); 


if (! (y is even 


248) ) { 
z = mulmod(y2 = AP_mod(x, p), t = Z, p); 
AP_free(&y2); 
AP_free(&t); 
} 


18.3.5 ”比较 


比较 x 和 y 的 结果 ， 取 决 于 二 者 的 符号 和 绝对 值 。 当 x<y、x=y、x>y 
时 ，AP_cmp 分 别 返 回 小 于 零 、 等 于 零 、 大 于 零 的 值 。 当 x 和 y 符 号 不 同 
时 ，AP_cmp 只 需 返 回 x 的 符 写 ， 任 则 ， 它 必须 比较 二 者 的 绝对 值 : 


(functions 


241) += 
int AP_cmp(T x, T y) { 
assert(x); 
assert(y); 


if (! (x and 


y have the same sign 


243) ) 
return x->sign; 
else if (x->sign == 1) 


return cmp(x, y); 


else 


return cmp(y, x); 


当 x 和 y 都 是 正 数 时 ， 如 果 |x|<|y|， 即 有 x<y， 依 次 类 推 。 当 x 和 y 都 是 负数 
时 ， 如 果 |x|>|y|， 则 有 x<y， 这 是 在 第 二 次 调用 cmp 时 逆转 参数 顺序 的 原 
因 。 在 cmp 检 查 操作 数 长 上 度 不 同 的 情形 之 后 ， 由 XP_cmp 完 成 实际 的 比 


较 : 





(static functions 


241) += 
static int cmp(T x, T y) { 
if (x->ndigits != y->ndigits) 
return x->ndigits - y->ndigits; 
else 


return XP_cmp(x->ndigits, x->digits, y->digits); 


(prototypes 


242) += 


static int cmp(T x, T y); 


18.3.6 ”便捷 函数 


AP 接口 的 六 个 便捷 函数 ， 都 以 一 个 AP_T 实 例 作 为 第 一 个 参数 ， 而 
使 用 有 符号 长 整数 作为 第 二 个 参数 。 每 个 图 数 都 将 长 整数 传递 给 set， 来 
初始 化 一 个 临时 的 AP_T 实 例 ， 然 后 调用 更 通用 的 操作 。AP_addi 次 明了 
这 种 方法 : 


(functions 


241) += 
T AP_addi(T x, long int y) { 


(declare and initialize 
t 250) 
return AP_add(x, set(&t, y)); 


(declare and initialize 


t 250) = 


unsigned char d[sizeof (unsigned long) ]; 
struct T t; 
t.size = sizeof d; 


t.digits = d; 





上 述 的 第 二 个 代码 块 ， 通 过 声明 适当 的 局 部 变量 ， 在 栈 上 分 配 了 临时 的 
AP_T 实 例 以 及 相关 的 digits 数 组 。 这 是 可 能 的 ， 因 为 digits 数 组 的 大 小 受 
限于 unsigned long 类 型 的 字 节 数 。 

剩余 的 4 个 便捷 函数 也 采用 了 相同 的 模式 ; 


(functions 


) += 
T AP_subi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_sub(x, set(&t, y)); 


T AP_muli(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_mul(x, set(&t, y)); 


T AP_divi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_div(x, set(&t, y)); 


int AP_cmpi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_cmp(x, set(&t, y)); 


AP_modi 比 较 古 怪 ， 它 返回 了 long 类 型 ， 而 不 是 AP_T 或 int， 男 外 它 必须 
丢弃 AP_mod 返 回 的 AP_T 实 例 。 


(functions 


241) += 
long int AP_modi(T x, long int y) { 
long int rem; 


TY; 


(declare and initialize 


t 250) 
r = AP_mod(x, set(&t, y)); 
rem = XP_toint(r->ndigits, r->digits); 
AP_free(&r); 


return rem; 


18.3.7 移 位 


两 个 移 位 函数 都 调用 了 对 应 的 XP 函数 ， 来 对 操作 数 进 行 移 位 操 
作 。 对 于 AP_lshift， 结 果 的 符号 与 操作 数 相同 ， 结 果 比 操作 数 多 | w8 | 
个 数位 。 


(functions 


241) += 
T AP_lshift(T x, int s) { 


Tez; 


assert(x); 

assert(s >= 0); 

z = mk(x->ndigits + ((S+7)& ~7)/8); 

XP_lshift(z->size, z->digits, x->ndigits, 
xX->digits, s, 0); 

z->sign = x->sign; 


return normalize(z, z->size); 


对 于 AP_rshift， 结 果 比 操作 数 少 s / 8 | 个 字 节 ， 结 果 有 可 能 为 0， 这 种 
情况 下 其 符号 必须 为 正 。 


T AP_rshift(T x, int s) { 
assert(x); 
assert(s >= 0); 
if (s >= 8*x->ndigits) 
return AP_new(0); 
else { 


T z = mk(x->ndigits - s/8); 


XP_rshift(z->size, z->digits, x->ndigits, 
x->digits, s, 0); 

normalize(z, z->size); 

z->sign = iszero(z) ? 1 : x->sign; 


return Z; 





if 语句 处 理 了 一 种 特例 ， 即 s 指 定 的 移 位 数量 大 于 等 于 x 中 现 有 比特 位 数 
目的 情形 。 


18.3.8 ”与 字符 串 和 整数 的 转换 


AP_toint(x) 返 回 一 个 long int， 其 符号 与 x 相 同 ， 其 绝对 值 等 于 xmod 
(LONG_MAX+1). 


(functions 


241) += 
long int AP_toint(T x) { 


unsigned long u; 


assert(x); 
u = XP_toint(x->ndigits, x->digits)%(LONG_MAX + 1UL); 


if (x->sign == -1) 


return -(long)u; 
else 


return (long)u; 


其 余 的 AP 函数 负责 AP_T 到 字符 串 的 双 辐 转换 。AP_fromstr 将 一 个 
字符 串 转 换 为 一 个 AP_T 实 例 ， 它 接受 一 个 表示 有 符号 数 的 字符 串 ， 话 
法 如 下 : 


number 


={ white 


tL - |+ ]{ white 


} digit 


{ digit 


其 中 white 表 示 一 个 空格 字符 ， 而 digit 表 示 指 定 基数 下 的 一 个 数字 字 
符 ， 基 数 必须 在 2 一 36《〈 含 ) 。 对 于 大 于 10 的 基数 ， 用 字母 来 表示 大 于 9 
的 数位 。AP_fromstr 调 用 了 XP_fromstrr， 当 过 到 非法 字符 或 0 字符 时 将 停 
止 扫 摘 其 字符 串 参 数 。 








(functions 


241) += 

T AP_fromstr(const char *str, int base, char **end) { 
T Z; 
const char *p = str; 
char *endp, sign = '\0'; 


int carry; 


assert(p); 
assert(base >= 2 && base <= 36); 
while (*p && isspace(*p)) 
ptt, 
it Opasi Spee a) 
Sign = *p++; 


(z ~ 0 253) 


carry = XP_fromstr(z->size, z->digits, p, 
base, &endp); 

assert(carry == 0); 

normalize(z, z->size); 

if (endp == p) { 
endp = (char *)str; 


z = AP_new(0); 


} else 
Z->sign = iszero(z) || sign != '-' ? 41: -1; 
if (end) 


*end = (char *)endp; 
return Z; 


} 


AP_fromstr 将 endp 的 地 址 传递 给 XP_fromstr， 因 为 它 需 要 知道 扫描 过 程 
结束 于 哪个 字符 ， 以 便 检 查 非 法 的 输入 。 如 有 果 end 不 是 NULL， 
AP_fromstr 将 *end 设 置 为 endp。 





z 中 比特 位 的 数目 是 nlg base， 其 中 n 是 字符 串 中 数字 字符 的 数目 ， 
因而 z 中 的 XP_T 实 例 中 的 digits 数 组 ， 至 少 要 包 舍 m=(n*lg ”base)/8 个 字 
节 。 假 定 base 为 2k , ASAm=n-lg (2k )/8=k:n/8。 因 而 ， 如 果 我 们 选择 k， 
使 得 k 值 最 小 ， 且 2k 是 大 于 等 于 base， 那 么 z 需 要 [fe . pn/8 | 个 数位 。 对 于 
基数 base 下 每 个 数字 表示 的 比特 位 数目 ，k 估 算 了 其 上 界 。 例 如 ， 当 base 
为 10 时 ， 每 个 数位 承载 jg 10s3.32 比 特 位 ，k 为 4。 当 base 从 2 增长 到 36 
时 ，k 的 变化 范围 为 1 到 6。 








(z ~ 0 253) = 


const char *start; 

int k, n = 0; 

for ( ; *p == '0' && p[1] == '0'; p++) 
start = p; 


for ( ; (*p is a digit in 


base 253) ; p++) 

n++; 
for (k = 1; (1<<k) < base; k++) 
z = mk(((k*n + 7)& ~7)/8); 


p = start; 


(*p is a digit in 


base 253) = 
( 'O' <= *p && *p <= '9' && *p < 'O' + base 
|| 'a' <= *p && *p <= 'z' && *p < 'a' + base - 10 


|| 'A' <= *p && *p <= 'Z' && *p < 'A' + base - 10) 


代码 块 <z-0253> 中 第 一 个 for 循 环 ， 略 过 了 前 部 连续 的 数字 0。 


AP_tostr 可 以 使 用 类 似 的 技巧 ， 来 估计 base 基 数 下 用 字符 串 表 示 x 所 
需 字 符 的 数目 n。x 的 digits 数 组 中 数位 的 数目 是 m=(n*lg base)/8。 如 果 我 
们 在 2 ”小 于 或 等 于 base 的 条 件 下 ， 选 择 最 大 的 k 值 ， 那 么 m=n-lg 。 (2* 
V/8=k-n/8, NALS - m/k| ， 外 加 一 个 表示 字符 串 结 尾 的 0 字符 。 这 里 ，k 
估算 的 是 在 base 基 数 下 每 个 数位 所 表示 比特 位 数 的 下 界 ， 因 而 n 则 估算 
了 输出 所 需 数位 数目 的 上 界 。 例 如 ， 当 base 为 10 时 ，x 中 的 每 个 数位 都 
可 以 输出 8lg” 10sx2.41 个 十 进 制 数 位 ，k 为 3， 因 此 为 x 中 的 每 个 数位 分 配 
个 十 进 制 数位 。 当 base 从 36 变 动 到 2 时 ，k 值 的 变动 范围 为 从 5 到 1。 





(size — number of characters in 


str 253) = 
{ 


int k; 


for (k = 5; (1<<k) > base; k--) 


size = (8*x->ndigits)/k + 1+ 1; 
if (x->sign == -1) 
size++; 


} 
AP_tostr 用 XP_tostr 来 计算 x 的 字符 串 表 示 : 


(functions 


241) += 
char *AP_tostr(char *str, int size, int base, T x) { 


XP_T q; 


assert(x); 

assert(base >= 2 && base <= 36); 
assert(str == NULL || size > 1); 
if (str == NULL) { 


(size — number of characters in 


str 253) 
str = ALLOC(size); 
} 
q = ALLOC(x->ndigits); 
memcpy(q, X->digits, x->ndigits); 
if (x->sign == -1) { 
str[0] = '-'; 
XP_tostr(str + 1, size - 1, base, x->ndigits, 
} else 
XP_tostr(str, size, base, x->ndigits, q); 
FREE(q); 


return str; 


最 后 一 个 AP 函数 是 AP_fmt， 这 是 一 个 FEmt 风 格 的 转换 函数 ， 用 于 输 
出 AP_T 实 例 。 它 使 用 AP _tostr 把 AP_T 值 格式 化 为 十 进 制 字 符 串 表示 ， 
并 调用 FEmt_putd 输 出 字符 串 。 


(functions 


241) += 

void AP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
T X; 


char *buf; 


assert(app && flags); 

x = va_arg(*app, T); 

assert(x); 

buf = AP_tostr(NULL, ©, 10, x); 

Fmt_putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREE(buf); 


18.4 扩展 阅读 


AP_T 类 似 于 某 些 编程 语言 中 的 大 整数 (bignum) 。 例 如 ，Icon 比 
较 新 的 版 本 只 有 一 个 整数 类 型 ， 但 根据 需要 可 以 使 用 任意 精度 算术 来 表 
示 计 算 的 值 。 程 序 员 无 需 区 分 本 机 整数 和 任意 精度 整数 。 











用 于 任意 精度 算术 的 设施 ， 通 常 以 标准 库 或 软件 包 的 形式 提供 。 例 
如 ，LISP 语 言 系统 很 久 前 就 包含 了 bignum 软 件 包 ， 而 ML 也 有 类 似 的 软 
件 包 。 


大 多 数 符号 运算 系统 都 会 执行 任意 精度 算术 ， 因 为 这 是 其 目的 所 
在 。 例 如 ，Mathematica [Wolfram，1988] 提 供 了 任意 长 度 的 整数 ， 以 及 
分 子 和 分 母 都 是 任意 长 度 整 数 的 有 理 数 。 另 一 种 符号 计算 系统 Maple 
V[Char 等 人 ，1992] 也 提供 了 类 似 的 功能 。 








18.5 “习题 


18.1 AP div 和 AP_mod 每 次 调用 时 都 分 配 并 释放 临时 空间 。 修 改 
二 者 的 实现 ， 使 之 能 够 共享 tmp， 只 需 分 配 一 次 ， 而 后 可 以 跟踪 其 大 
小 ， 并 在 必要 时 扩展 其 空间 。 


18.2 AP_pow 中 使 用 的 递归 算法 ， 等 效 于 我 们 所 熟悉 的 友 代 算法 
(通过 重复 地 乘 方 和 乘积 来 计算 z=xy， 人 参见 [Knuth，1981] 的 4.6.3 节 ) : 





Zex, U 


一 1 


while y 


> 1 do 


if y 


is odd then u e u:z 


Z- U'zZ 
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分 配 比较 少 的 空间 。 全 用 这 各 第 法 重新 实现 AP_pow， 并 测量 其 在 时 
和 空间 方面 的 改进 。x 和 y 至 少 有 多 大 ， 这 个 算法 才能 显著 好 于 递归 算 

法 ? 





18.3 ”实现 AP_ceil(AP T x, AP_T y)#IAP_floor(AP_T x, AP_T y), 
1K [Al x/y HY al Ea A BS TB EARNE, EL BLE TEX Ply PFS 
不 同时 函数 的 行为 。 


18.4 AP 接口 颇 有 些 “ 嘻 杂 ”， 有 些 函 数 有 很 多 参数 ， 很 容易 混 清 输 
入 和 输出 参数 。 设 计 并 实现 一 个 新 的 接口 ， 其 中 使 用 Seq_T 作 为 栈 ， 函 
数 从 栈 中 获取 操作 数 。 请 专注 于 使 接口 尽 可 能 干 妆 ， 但 不 要 省 略 重 要 的 
功能 。 





18.5 实现 一 个 AP 函数 ， 可 以 在 指定 范围 内 生成 均匀 分 布 的 随机 
数 。 








18.6 ”设计 一 个 接口 ， 其 函数 用 于 完成 对 任意 n 值 的 模 n 算 术 操 作 ， 
因此 这 些 函 数 的 参数 和 返回 值 来 自 于 从 0 到 n-1 的 整数 集 。 请 注意 除法 : 
仅 当 该 集合 为 有 限 域 时 〈n 为 质数 ) ， 除 法 才 有 定义 。 





18.7 ”两 个 n 数 位 的 数 ， 计 算 其 乘积 的 时 间 与 mn 成 正比 (参见 17.2.2 
F) o A. Karatsuba 在 1962 年 说 明了 如 何 使 乘积 运算 的 时 间 与 n5”2 成 正 
比 (参见 [Geddes，Czapor and Labahn，1992] 的 4.3 节 和 [Knuth，1981] 的 
4.3.3 节 ) 。 一 个 n 数 位 的 数 x*， 可 以 拆 分 为 高 低 各 m2 数位 的 和 ， 即 ， 
x=aB" +b。 乘 积 xy 可 以 改写 为 : 





xy=(aB"? +b)(cB”? +d)=acBn +(ad+bc)B"? +bd, 


计算 改写 后 的 表达 式 需要 4 次 乘法 和 1 次 加 法 。 该 中 间 形 式 的 系数 还 可 以 
改写 为 ; 


ad+bc=ac+bd+(a-b)(d-c). 


因而 ， 乘 积 xy 只 需要 3 次 乘法 (ac、bd 和 (a-b)(d-c)) ， 两 次 减法 ， 和 两 
次 加 法 。 在 n 比 较 大 时 ， 减 少 一 次 n/2 数 位 的 乘法 ， 可 以 减少 乘法 的 执行 
时 间 ， 但 代价 是 增加 了 表示 中 间 值 所 需 的 空间 。 使 用 Karatsuba 的 算法 实 
现 AP_mul 一 个 递归 版 本 ， 确 定 对 什么 样 的 n 值 ， 该 算法 能 够 比 显 著 快 
于 “朴素 算法。 使 用 XP_mul 进 行 中 间 步 又 的 计算 。 


[1] 请 注意 ， 按 本 书 的 定义 ， 当 x 和 y 均 为 负数 时 , x =y* q+r 
的 关系 式 并 不 成 立 。 一 一 译 者 注 
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三 个 与 算术 有 关 的 接口 ， 最 后 一 个 是 MP， 该 接口 导出 的 函数 实现 
了 无 符号 整数 和 【二进制 补 码 ) 有 符号 整数 的 多 精度 算术 。 类 似 于 
XP，MP 公 开 了 对 n-bit 整 数 的 表示 ，MP 函 数 可 以 对 给 定 长 度 的 整数 进行 
操作 。 与 XP 不 同 的 是 ，MP 整 数 长 度 的 单位 是 比特 位 ， 而 MP 接口 函数 同 
时 实现 了 有 符号 和 无 符号 算术 。 类 似 于 AP 接口 函数 ，MP 接 口 函 数 会 强 
制 实施 常见 的 已 检查 的 运行 时 错误 。 














MP 同样 面 器 需要 扩展 精度 算术 的 应 用 程序 ， 但 此 类 应 用 程序 可 能 
有 一 些 附 加 的 要 求 ， 例 如 ， 可 能 需要 对 内 存 分 配 进行 更 细 粒 度 控 制 ， 同 
时 需要 无 符号 和 有 符号 操作 ， 或 必须 模拟 二 进 制 补 码 下 的 n-bit 算 术 运 
算 。 这 种 应 用 程序 的 例子 ， 包 括 编 译 器 和 使 用 加 密 功 能 的 应 用 程序 。 一 
些 现代 加 密 算 法 需要 操作 包含 数 百 个 数位 的 固定 精度 整数 。 











而 一 些 编译 器 必须 使 用 多 精度 整数 。 交 叉 编 译 需 可 能 运行 在 X 平 合 
上 ， 却 在 为 Y 平 台 生 成 代码 。 如 果 Y 平 台 上 的 整数 长 度 比 X 平 台大 ， 编 译 
铝 可 以 使 用 MP 来 操作 Y 平 台 上 的 整数 。 男 外 ， 编 译 避 还 必须 使 用 多 精度 
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19.1 接口 


MP 接口 比较 庞大 ， 包 括 49 个 函数 和 两 个 异 毅 ， 因 为 它 导 出 了 针对 
n-bit 有 符号 /无 符号 整数 的 一 整套 算术 函数 。 


(mp.h 


) = 
#ifndef MP_INCLUDED 
#define MP_INCLUDED 
#include <stdarg.h> 
#include <stddef.h> 


#include "except.h" 


#define T MP_T 


typedef unsigned char *T; 


(exported exceptions 


258) 


(exported functions 


258) 


#undef T 


#endif 


类 似 于 XP 接 口 ，MP 公 开 了 n-bit 整 数 的 表示 ， 即 | n/8 | TFE, F 
节 序 为 最 低 有 效 字 节 首 先 存储 。 对 于 有 符号 整数 ，MP 使 用 二 进 制 补 码 
表示 ， 比 特 位 n-1 为 符号 位 。 








不 同 于 XP 接口 函数 ，MP 中 的 函数 实现 了 第 见 的 已 检查 的 运行 时 错 
误 ， 例 如 ， 向 该 接口 中 任意 函数 传递 的 MP_T 为 NULL， 都 是 已 检查 的 
运行 时 错误 。 但 是 ， 如 果 传 递 的 MP_T 参 数 太 小 ， 以 至 于 无 法 保存 n-bit 
整数 ， 则 是 未 检查 的 运行 时 错误 。 





MP 自动 初始 化 来 对 32 位 整数 执行 算术 操作 。 可 以 调用 


‘exported functions 


258) = 


extern int MP_set(int n); 


修改 MP 的 设置 ， 使 得 后 续 调 用 执行 n-bit 算 术 。MP_set 返 回 此 前 设 定 的 
整数 长 度 。 如 宁 n 小 于 2， 则 造成 已 检查 的 运行 时 错误 。 在 初始 化 后 ， 大 
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128 位 算术 来 操作 常数 。 这 种 设计 迎合 了 此 类 应 用 程序 的 需求 ， 这 简化 
了 其 他 MP 函数 的 用 法 ， 同 样 人 简化 了 其 参数 列表 。 省 上 略 n 是 显而易见 的 简 
化 ， 但 更 重要 的 简化 是 对 源 和 目标 参数 不 再 有 限制 : 同一 MP_T 实 例 总 
是 可 以 作为 源 和 目标 同时 出 现 。 消 除 这 些 约束 是 可 能 的 ， 因 为 其 中 一 些 
函数 所 需 的 临时 空间 只 依赖 于 n， 因 而 可 以 通过 MP_set 只 分 配 一 次 。 








这 种 设计 也 避免 了 内 存 分 配 。MP _ set 可 能 引发 Mem_Failed 异 常 ， 但 
在 其 他 48 个 MP 函数 中 ， 仪 有 4 个 会 进行 内 存 分 配 。 其 中 之 一 是 


‘exported functions 


258) += 


extern T MP_new(unsigned long u); 


该 函数 会 分 配 一 个 适当 大 小 的 MP_T 实 例 ， 将 其 初始 化 为 ， 并 返回 该 实 
例 。 


‘exported functions 


258) += 
extern T MP_fromint (T z, long v); 


extern T MP_fromintu(T z, unsigned long u); 


这 两 个 函数 将 z 设 置 为 v 或 u， 并 返回 z。MP_new、MP_fromint 和 
MP_fromintu 可 能 引发 下 述 异 营 : 





‘exported exceptions 


258) = 


extern const Except_T MP_Overflow; 


引发 该 异常 的 条 件 是 n 个 比特 位 无 法 容纳 u 或 v。MP_new 和 MP_fromintu 
在 u 大 于 2? -1 时 引发 MP_Overflow 异 常 ， 而 MP_fromint 在 Vv 小 于 -2™1 或 大 
于 2n1 -1 时 引发 MP_Overflow 异 常 。 





所 有 的 MP 接口 函数 都 在 引发 异常 之 前 计算 结果 。 多 余 的 比特 位 只 
是 被 丢弃 挥 。 例 如 ， 


MP_T Z; 
MP_set(8); 
z = MP_new(0); 


MP_fromintu(z, OxFFF); 


将 z 设 置 为 0XFF 并 引发 MP_ Overflow 异 常 。 如 果 这 种 操作 是 适当 的 ， 客 
户 程序 可 以 使 用 TRY-EXCEPT 语 句 忽略 该 异常 。 例 如 ， 


MP_T Z; 
MP_set(8); 


z = MP_new(0); 


TRY 
MP_fromintu(z, OXxFFF); 
EXCEPT(MP_Overflow) ; 


END_TRY; 


EZ BCE NOFF} A Vink LE SRA o 





这 种 惯例 不 适用 于 下 述 两 个 函数 


‘exported functions 


258) += 
extern unsigned long MP_tointu(T x); 


extern long MP_toint (T x); 





这 两 个 函数 将 x 的 值 转换 为 有 符号 或 无 符号 long 型 返回 。 当 返回 类 型 无 
法 容纳 x 的 值 时 ， 这 两 个 函数 都 会 引发 MP_Overflow 异 销 ， 而 且 当 异常 
发 生 时 ， 无 法 获得 转换 的 部 分 结果 。 客 户 程序 可 以 使 用 


(exported functions 


258) += 
extern T MP_cvt (int m, T z, T x); 


extern T MP_cvtu(int m, T z, T x); 


将 x 转换 为 适当 大 小 的 MP_T 实 例 。MP_cvt 和 MP_cvtu 将 x 转换 为 m-bit 的 z 
中 有 符号 或 无 符号 MP_T 实 例 ， 并 返回 z。 当 m 个 比特 位 无 法 容纳 x 时 ， 

这 两 个 图 数 会 引发 MP_Overflow 有 异常， 但 在 引发 异 音 前 ， 这 两 个 函数 会 
将 部 分 结果 设置 到 z。 这 样 ， 








unsigned char z[sizeof (unsigned) ]; 
TRY 

MP_cvtu(8*sizeof (unsigned), z, x); 
EXCEPT(MP_Overflow) ; 


END_TRY; 








会 将 z 设 置 为 x 中 最 低 8 * sizeof(unsigned) 个 比特 位 ， 而 不 管 x 本 身长 度 如 
何 。 


在 m 超 出 x 中 比特 位 的 数目 时 ，MP_cvtu 用 0 填充 结果 的 高 位 ， 而 
MP_cvt 用 x 的 符号 位 填充 结果 的 高 位 。 如 果 m 小 于 2， 则 造成 已 检查 的 运 
行 时 错误 ， 如 果 z 太 小 而 无 法 容纳 m 个 比特 位 的 整数 ， 则 造成 未 检查 的 
运行 时 错误 。 








算术 函数 如 下 


‘exported functions 


258) += 
extern T MP_add (T z, T x, T y); 


extern T MP_sub (T z, T x, T y); 


extern T MP_mul (T z, T x, T y); 
extern T MP_div (T z, T x, T y); 
extern T MP_mod (T z, T x, T y); 
extern T MP_neg (T z, T x); 

extern T MP_addu(T z, T x, T y); 
extern T MP_subu(T z, T x, T y); 
extern T MP_mulu(T z, T x, T y); 
extern T MP_divu(T z, T x, T y); 
extern T MP_modu(T z, T x, T y); 





函数 名 以 u 结 尾 者 实现 了 无 符号 算术 ， 而 其 他 函数 则 实现 了 二 进 制 补 码 
符号 算术 。 无 符号 和 有 符号 运算 之 间 唯 一 的 差别 是 二 者 的 溢出 语义 ， 将 
在 下 文 详 述 。MP_add、MP_sub、MP_mul、MP_div 和 MP_mod 以 及 处 理 
无 符号 整数 的 对 应 函数 ， 分 别 计算 z=x+y、z=x-y、Zz=X*y、2Z=X/y 和 z=x 
mod y， 并 返回 z。 和 斜体 表示 x、y 和 z 的 值 。MP_neg 将 z 设 置 为 x< 的 反 ， 并 
返回 z。 如 果 x 和 y 符 号 不 同 ，MP_div 和 MP_mod 向 负 无 穷 大 方向 舍 入 ， 
因而 x mod y 的 结果 总 是 正 数 。 











除了 MP_divu 和 MP_modu 之 外 ， 所 有 这 些 函 数 在 z 无 法 容纳 计算 结 
果 时 ， 都 会 引发 MP_Overflow 异 常 。 当 x<y 时 ，MP_subu 引 发 
MP_Overflow 寞 常 ， 当 x 和 y 符 号 人 不同 且 结 果 的 符号 不 同 于 x 的 符号 时 ， 
MP_sub 引 发 MP_Overflow 异 常 。 当 y 为 0 时 ，MP_div、MP_divu、 
MP_mod 和 MP_modu 将 引发 下 列 异常 。 





‘exported exceptions 


258) += 


extern const Except_T MP_Dividebyzero; 


当 y=0 时 ， 


‘exported functions 


258) += 
extern T MP_mul2u(T z, T x, T y); 


extern T MP_mul2 (T z, T x, T y); 


这 两 个 函数 返回 的 乘积 都 是 乘 数 的 两 倍 长 : 二 者 都 计算 z=x'y， 其 中 2 有 
2n 个 比特 位 ， 并 返回 z。 因 而 ， 结 果 不 会 溢出 。 如 果 z 长 度 太 小 ， 而 无 法 
容纳 2n 个 比特 位 ， 将 造成 未 检查 的 运行 时 错误 。 请 注意 ， 由 于 z 必 须 能 
够 容纳 2n 个 比特 位 ， 它 不 能 通过 MP_new 分 配 。 








下 述 便捷 函数 可 以 接受 一 个 unsigned long 或 1ong 作 为 第 二 个 操作 
数 : 


(exported functions 


258) += 


extern T MP_addi (T z, T x, long y); 


extern T MP_subi (T z, T x, long y); 
extern T MP_muli (T z, T x, long y); 


extern T MP_divi (T z, T x, long y); 


extern T MP_addui(T z, T x, unsigned long y); 
extern T MP_subui(T z, T x, unsigned long y); 
extern T MP_mului(T z, T x, unsigned long y); 
extern T MP_divui(T z, T x, unsigned long y); 
extern long MP_modi (T x, long y); 


extern unsigned long MP_modui(T x, unsigned long y); 


这 些 函 数 实 际 上 等 价 于 对 应 的 更 通用 的 函数 〈 只 要 将 后 者 的 第 二 个 操作 
数 初 始 化 为 Yy) ， 也 会 引发 类 似 的 卉 音 。 例 如 ， 


MP_T Z, X; 
long y; 


MP_muli(z, x, y); 


MP_T Z, X; 

long y; 

{ 
MP_T t = MP_new(0); 
int overflow = 0; 
TRY 


MP_fromint(t, y); 


EXCEPT (MP_Overflow) 
overflow = 1; 

END_TRY; 

MP_mul(z, x, t); 

if (overflow) 


RAISE(MP_Overflow) ; 


但 便捷 函数 并 不 进行 内 存 分 配 操作 。 请 注意 ， 如 果 y 太 大 ， 这 些 便捷 函 
数 都 会 引发 MP_Overflow 异 党 ， 包 含 MP_divui 和 MP_modui 在 内 ， 但 这 
些 函 数 都 是 在 计算 z 之 后 才 引 发 异 稼 。 








(exported functions 


258) += 
extern int MP_cmp (T x, T y); 


extern int MP_cmpi (T x, long y); 


extern int MP_cmpu (T x, T y); 


extern int MP_cmpui(T x, unsigned long y); 


上 述 几 个 比较 x 和 y， 针 对 x<y、x=y 或 x>y 的 情形 ， 分 别 返 回 小 于 零 、 等 
于 零 或 大 于 零 的 值 。MP_cmpi 和 MP_cmpui 并 不 要 求 MP_T 实 例 一 定 能 容 
纳 y 值 ， 它 们 只 是 比较 x 和 y。 


下 列 函数 将 其 输入 的 MP_T 参 数 当 做 n 比 特 位 的 字符 串 处 理 ; 


(exported functions 


258) += 

extern T MP_and (T z, T x, T y); 
extern T MP_or (Tz, Tx, T y); 
extern T MP_xor (Tz, Tx, T y); 
extern T MP_not (T z, T x); 


extern T MP_andi(T z, T x, unsigned long y); 
extern T MP_ori (T z, T x, unsigned long y); 


extern T MP_xori(T z, T x, unsigned long y); 


MP_and、MP_or、MP_xor， 以 及 对 应 的 用 “立即 数 ”( 指 直接 传递 
unsigned long 参 数 ) 作为 参数 的 函数 ， 分 别 将 z 设 置 为 x 和 y 的 按 位 与 、 按 
位 或 、 异 或 ， 并 返回 z。MP_not 将 z 设 置 为 等 于 x 按 位 取 反 ， 并 返回 z。 这 
些 函 数 从 不 引发 异常 ， 在 y 过 大 时 ， 对 应 的 便捷 函数 将 忽略 可 能 发 生 的 
溢出 。 例 如 ， 





MP T Z, X; 
unsigned long y; 


MP_andi(z, x, y); 


MP_T Z, X; 


unsigned long y; 


MP_T t = MP_new(0); 
TRY 

MP_fromintu(t, y); 
EXCEPT(MP_Overflow) ; 
END_TRY; 


MP_and(z, x, t); 





但 这 些 便捷 函数 也 都 不 进行 内 存 分 配 操作 。 以 下 是 三 个 移 位 操作 函数 


‘exported functions 


258) += 
extern T MP_lshift(T z, T x, int s); 
extern T MP_rshift(T z, T x, int s); 


extern T MP_ashift(T z, T x, int s); 





这 三 个 函数 实现 了 逻辑 移 位 和 算术 移 位 。MP_lshift 将 z 设 置 为 x 左 移 s 个 

比特 位 ，MP_rshift 将 z 设 置 为 x 右 移 s 个 比特 位 。 这 两 个 函数 都 用 0 填充 空 
出 的 比特 位 ， 并 返回 z。MP_ashift 类 似 于 MP_rshift， 但 用 x 的 符号 位 填充 
空 出 的 比特 位 。 传 递 负 的 s 值 ， 是 一 个 已 检查 的 运行 时 错误 。 











下 列 函 数 负责 MP_T 与 字符 串 的 转换 。 


(exported functions 


258) += 
extern T MP_fromstr(T z, const char *str, 
int base, char **end); 
extern char *MP_tostr (char *str, int size, 
int base, T x); 
extern void MP_fmt (int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision); 
extern void MP_fmtu (int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


MP _fromstr 将 str 中 的 字符 串 解 释 为 base 基 数 下 的 一 个 无 符号 整数 ， 将 z 设 
置 为 该 整数 ， 并 返回 z。 该 函数 忽略 字符 串 开 头 的 空白 ， 并 处 理 其 后 以 
base 为 基数 的 一 个 或 多 个 数位 。 对 大 于 10 的 基数 来 说 ， 小 写 和 大 与 字母 
用 于 指定 超过 9 的 数位 。MP_fromstr 类 似 于 strtoul: 如 果 end 不 是 NULL， 
MP_fromstr 将 *end 设 置 为 扫描 结束 处 字符 的 地 址 。 如 果 str 没 有 指定 一 个 
有 效 的 整数 ， 日 end 不 是 NULL，MP fromstr 将 *end 设 置 为 strtr， 并 返回 
NULL。 如 果 str 中 的 字符 串 指定 了 一 个 过 大 的 整数 ，MP_fromstr 将 引发 
MP_Overflow 异 常 。str 为 NULL， 或 者 base 小 于 2 或 大 于 36， 都 是 已 检查 
的 运行 时 错误 。 





MP tostr 用 一 个 0 结尾 字符 串 填 充 str[0..size - 1， 访 字符 串 表 示 在 基 
数 base 下 的 x， 最 后 返回 str。 如 果 str 为 NULL，MP_tostr 忽 略 size 并 分 配 





必要 的 字符 串 ， 客 户 程序 负责 释放 该 字符 串 。 如 果 base 小 于 2 或 大 于 
36， 或 str 不 是 NULL， 而 size 太 小 导致 str 无 法 容纳 生成 的 0 结尾 字符 串 ， 
则 造成 已 检查 的 运行 时 错误 。 在 str 是 NULL 时 ，MP tostr 可 能 引发 


Mem Failed 异常。 





MP_fmt 和 MP_fmtu 是 Fmt 风 格 的 转换 函数 ， 用 于 输出 MP_T 实 例 。 
二 者 都 消耗 一 个 MP_T 和 一 个 基数 ，MP_fmt 将 有 符号 MP_T 转 换 为 字符 
串 ，MP_fmtu 将 无 符 写 MP_T 转 换 为 字符 串 ， 前 者 使 用 类 似 于 printf 的 %d 
限定 符 ， 后 者 使 用 类 似 于 printf 的 %u 限 定 符 。 这 两 个 函数 都 可 能 引发 
Mem_Failed 异 常 。app 或 flags 是 NULL， 则 为 已 检查 的 运行 时 错误 。 





19.2 例子 : 另 一 个 计算 器 


mpcalc 类 似 于 calc， 只 是 对 n-bit 整 数 执行 有 符号 和 无 符号 计算 而 
己 。 它 示范 了 MP 接口 的 用 法 。 类 似 于 calc，mpcalc 使 用 了 波兰 后 级 表示 
法 (Polish suffix notation) : 值 被 推 入 栈 上 ， 运 算 符 将 其 操作 数 从 栈 中 
弹出 ， 并 将 运算 结果 再 次 推 入 栈 上 。 值 是 当前 输入 基数 下 的 一 个 或 多 个 
连续 的 数位 ， 而 文 持 的 运算 符 如 下 。 





2 
a 
XI 


加 法 
或 
- ”减法 
^ FE 
* 乘法 
< ER 
/ 除法 
> AE 
% 取 模 


1 不 
. H 


i 设置 输入 基数 
o 设置 输出 基数 
k 设置 精度 
清空 栈 


复制 栈 顶 部 的 值 


a AnA 


p 输出 栈 项 部 的 值 
f 自 项 辐 下 ， 输 出 栈 上 所 有 的 值 
q 退出 





空格 字符 用 于 分 隅 值 ， 其 他 情况 下 忽略 空格 ， 其 他 字符 被 作为 无 法 
识别 的 运算 符 处 理 。 栈 的 大 小 只 受 可 用 入 存 的 限制 ， 但 发 生 栈 下 洲 会 出 
DIZ WB E o 


命令 nk 指定 了 mpcalc 操 作 的 整数 的 长 度 ， 其 中 n 至 少 为 2， 默 认 值 为 
32。 当 执行 k 运 算 符 时 ， 栈 必须 为 空 。i 和 o 运 算 符 指 定 了 输入 输出 基 
数 ， 二 者 的 默认 值 都 是 10。 当 输入 基数 超出 10 时 ， 一 个 值 的 第 一 个 数位 
必须 在 0 到 9 之 间 ( 含 )。 





如 果 输 出 基数 为 2、8 或 16，+-*/ 和 % 运 算 符 执 行 无 符号 算术 ， 而 p 和 
f 运 算 符 输 出 无 符号 值 。 对 所 有 其 他 基数 ，+-*/ 和 % 执 行 有 符号 算术 ，p 
和 f 输 出 有 符号 值 。~ 运 算 符 总 是 执行 有 符号 算术 ， 而 &|I^1< 和 > 运算 符 
总 是 将 其 操作 数 解释 为 无 符号 数 。 


mpcalc 在 出 现 溢 出 和 除 以 零 时 ， 会 通知 用 户 。 洲 出 情况 下 的 结果 ， 
是 值 的 最 低 n 个 比特 位 。 对 于 除 以 零 ， 结 果 为 零 。 





mpcalc 的 整体 结构 与 calc 非 常 相似 ， 它 解释 输入 、 计 算 值 、 并 管理 
一 个 栈 。 


(mpcalc.c 


#include <ctype.h> 
#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
#include <limits.h> 
#include "mem.h" 
#include "seq.h" 
#include "fmt.h" 
#include "mp.h" 


(mpcalc data 


264) 


(mpcalc functions 


264) 


含 seqh 表 明 ，mpcalc 使 用 序列 来 实现 栈 : 


(mpcalc data 


264) = 


Seq_T sp; 


(initialization 


264) = 


sp = Seq_new(0); 


值 通过 调用 Seq_addhi 压 栈 ， 通 过 调用 Seq_remhi 从 栈 中 弹出 。 在 序列 为 
空 时 ，mpcalc 不 能 调用 Seq_remhi， 因 此 它 将 所 有 的 弹 栈 操作 都 封装 在 


一 个 函数 中 ， 其 中 检查 了 栈 下 海 的 情形 。 


‘mpcalc functions 


264) = 
MP_T pop(void) { 
if (Seq_length(sp) > 0) 
return Seq_remhi(sp); 
else { 
Fmt_fprint(stderr, "?stack underflow\n"); 


return MP_new(0); 


类 似 于 calc 的 pop 函 数 ，mpcalc 的 pop 函 数 总 是 返回 一 个 MP_T 实 例 ， 


即使 


栈 为 空 也 是 如 此 ， 因 为 这 样 做 简化 了 错误 检查 。 


mpcalc 的 主 循环 需要 处 理 MP 接 口 的 异常 ， 因 此 比 calc 的 主 循环 复杂 
一 点 。 类 似 于 calc 的 主 循 环 ，mpcalc 的 主 循环 读 取 下 一 个 值 或 运算 符 ， 
如 果 读 取 到 运算 符 ， 则 执行 对 应 的 操作 。 它 也 准备 了 一 些 MP_T 实 例 ， 
用 于 保存 操作 数 和 结果 ， 它 使 用 TRY-EXCEPT 语 句 来 捕获 异常 。 





‘mpcalc functions 


264) += 


int main(int argc, char *argv[]) { 


int c; 


(initialization 


264) 
while ((c = getchar()) != EOF) { 


volatile MP_T x = NULL, y = NULL, z = NULL; 
TRY 


Switch (c) { 


(cases 


265) 
} 
EXCEPT(MP_Overflow) 
Fmt_fprint(stderr, "?overflow\n"); 
EXCEPT (MP_Dividebyzero) 
Fmt_fprint(stderr, "?divide by O\n"); 
END_TRY; 
if (z) 
Seq_addhi(sp, z); 
FREE(x); 
FREE(y); 
} 


‘clean up and exit 


265) 


‘clean up and exit 


265) = 


(clear the stack 


265) 
Seq_free(&sp); 
return EXIT_SUCCESS; 


x 和 y 用 于 表示 操作 数 ，z 用 于 表示 结果 。 如 果 在 处 理 一 个 运算 符 之 
后 x 和 y 不 是 NULL， 那 么 二 者 保存 了 由 栈 中 弹出 的 操作 数 ， 因 而 必须 释 
放 。 如 果 z 不 是 NULL， 则 其 中 保存 了 结果 ， 必 须 压 栈 。 这 种 方法 允许 
TRY-EXCEPT 语 名 只 出 现 一 次 ， 而 无 需 对 处 理 每 个 运算 符 的 代码 都 使 
用 。 


一 个 输入 字符 或 者 为 空格 ， 或 者 是 值 的 第 一 个 数位 ， 或 者 是 运算 
符 ， 或 是 其 他 (将 导致 错误 ) 。 这 里 是 易于 处 理 的 情形 : 


(cases 


265) = 
default: 
if (isprint(c)) 
Fmt_fprint(stderr, "?'%c'", c); 
else 
Fmt_fprint(stderr, "?'\\%030'", c); 
Fmt_fprint(stderr, " is unimplemented\n"); 
break; 


case ' ': case '\t': case '\n': case '\f': case '\r': 


break; 


case 'c': (clear the stack 


265) break; 


case 'q': (clean up and exit 


265) 


(clear the stack 


265) = 

while (Seq_length(sp) > 0) { 
MP_T x = Seq_remhi(sp); 
FREE(X ) ， 


数字 字符 标识 值 的 开始 ，mpcalc 收 集 各 个 数位 ， 并 调用 MP_fromstr 将 其 
转换 为 MP_T 实 例 。ibase 是 当前 输入 基数 。 


(cases 


265) = 
case '@': case '1': case '2': case '3': case 
case '5': case '6': case '7': case '8': case 
char buf[512]; 
z = MP_new(0); 


(gather up digits into 


buf 266) 
MP_fromstr(z, buf, ibase, NULL); 


break; 


(gather up digits into 


buf 266) 
{ 


int i = 0; 


for ( ; (c is a digit in 


Tavs 


rota { 


ibase 266) ; c = getchar(), i++) 
if (1 < (int)sizeof (buf) - 1) 
buf [i] = c; 
if (i > (int)sizeof (buf) - 1) { 
1 = (int)sizeof (buf) - 1; 
Fmt_fprint(stderr, 
"?integer constant exceeds %d digits\n", i); 
} 
buf[i] = '\0'; 
if (c != EOF) 


ungetc(c, stdin); 


发 现 超 长 值 时 ， 会 通知 用 户 ， 并 截断 该 值 。 对 字符 c 来 说 ， 如 果 下 述 调 
用 的 结果 不 是 NULL，c 即 为 ibase 基 数 下 的 一 个 数位 : 


(c is a digit in 


ibase 266) = 
strchr(&"zyxwvutsrqponmlkjihgfedcba9876543210"[36-ibase], 


tolower(c) ) 


处 理 大 部 分 算术 运算 符 的 case 语 名 都 具有 同样 的 形式 : 


(cases 


265) += 


case '+': (pop 


x & y, set 


z 266) (*f->add)(z, x, y); break; 


case '-': (pop 


x & y, set 


z 266) (*f->sub)(z, x, y); break; 


case '*': (pop 


x & y, set 


z 266) (*f->mul)(z, x, y); break; 


case '/': (pop 


x & y, set 


z 266) (*f->div)(z, x, y); break; 


case '%': (pop 


x & y, set 


z 266) (*f->mod)(z, x, y); break; 


case '&': (pop 


x & y, set 


Z 266) MP_and(z, x, y); break; 


case '|': (pop 
x & y, set 

Z 266) MP_or (z, x, y); break; 

case '^': (pop 

x & y, set 

z 266) MP_xor(z, x, y); break; 

case '!': z = pop(); MP_not(z, z); break; 
case '~': Zz = pop(); MP_neg(z, z); break; 


(pop 


x & y, set 


Z 266) = 
y = pop(); x = pop(); 
z = MP_new(0); 


f 指 向 一 个 结构 实例 ， 其 中 保存 了 一 些 函 数 指针 ， 具 体 指 向 哪些 函数 取 
决 于 mpcalc 是 执行 有 符 写 算术 还 是 无 符 与 算术 。 


‘mpcalc data 


264) += 

int ibase = 10; 

int obase = 10; 

struct { 
const char *fmt; 
MP_T (*add)(MP_T, MP_T, MP_T); 
MP_T (*sub)(MP_T, MP_T, MP_T); 
MP_T (*mul)(MP_T, MP_T, MP_T); 
MP_T (*div)(MP_T, MP_T, MP_T); 
MP_T (*mod)(MP_T, MP_T, MP_T); 


} s = { "%D\n", 
MP_add, MP_sub, MP_mul, MP_div, MP_mod }, 

u = { "%U\n", 
MP_addu, MP_subu, MP_mulu, MP_divu, MP_modu }, 


*f = &s; 
obase 是 输出 基数 。 最 初 ， 输 入 输出 两 个 基数 都 是 10， 指 网 9S， 其 中 的 函 


数 指针 指向 执行 有 符号 算术 的 MP 函数 。i 运 算 符 可 以 改变 ibase，o 运 算 
从 可 以 改变 obase， 这 两 个 运算 符 都 可 能 修改 f{， 使 之 指 问 u 或 s: 





(cases 


265) += 
case 'i': case ‘o': { 
long n; 
x = pop(); 
n = MP_toint(x); 
if (n< 2 || n > 36) 
Fmt_fprint(stderr, "?%d is an illegal base\n",n); 
else if (c == 'i') 
ibase = n; 
else 
obase = n; 
if (obase == 2 || obase == 8 || obase == 16) 


f = &u; 


如 果 x 不 能 转换 为 为 Iong〈 即 MP_toint 引 发 MP_Overflow 异 常 ) ， 或 
MP_toint 返 回 的 结果 整数 不 是 一 个 合法 的 基数 ， 那 么 基数 不 会 改变 。 


s 和 和 u 两 个 结构 实例 中 也 包含 了 一 个 Fmt 风 格 的 格式 串 ， 用 于 输出 
MP_T 实 例 。mpcalc 将 MP_fmt 注 册 到 %D 格 式 限 定 符 ， 而 将 MP_fmtu 注 册 
到 %U 限 定 符 : 


(initialization 


264) += 
Fmt_register('D', MP_fmt); 


Fmt_register('U', MP_fmtu); 


因而 f->fmt 可 以 访问 到 适当 的 格式 串 ， 运 算 符 p 和 f 使 用 这 些 格式 串 输 出 
MP_T 实 例 。 请 注意 ，p 将 其 操作 数 从 栈 中 弹出 到 z 中 ， 而 主 循环 中 的 代 
码 又 将 该 值 压 回 栈 中 。 


(cases 


265) += 
case 'p': 
Fmt_print(f->fmt, z = pop(), obase); 
break; 
case 'f': { 
int n = Seq_length(sp); 
while (--n >= 0) 
Fmt_print(f->fmt, Seq_get(sp, n), obase); 


break; 


对 照 calc 的 代码 《参见 18.2 节 ) ， 比 较 二 者 对 运算 符 { 的 处 理 ， 当 用 
Seq_T 表 示 栈 时 ， 很 容易 输出 栈 中 全 部 的 值 。 





移 位 运算 符 会 检查 非法 的 移 位 数量 ， 并 就 地 移 位 其 操作 数 : 


(cases 


265) += 


case '<': { (get 


s & z 268) ; MP_lshift(z, z, s); break; } 


case '>': { (get 


s & Z 268) ; MP_rshift(z, z, s); break; } 


(get 


S & Z 268) 
long s; 
y = pop(); 
z = pop(); 
s = MP_toint(y); 
if (s <0 || s > INT_MAX) { 
Fmt_fprint(stderr, 
"2%d is an illegal shift amount\n", s); 


break; 





如 果 MP_toint 引 发 MP_Overflow 异 常 ， 或 s 是 负数 或 超出 最 大 的 int 值 ， 操 
作 数 z 只 是 被 压 回 栈 上 。 


余下 的 case 语 句 ， 用 于 处 理 运 算 符 k 和 di: 


(cases 


265) += 
case 'k': { 
long n; 
x = pop(); 
n = MP_toint(x); 
if (n < 2 || n > INT_MAX) 
Fmt_fprint(stderr, 
"2%d is an illegal precision\n", n); 
else if (Seq_length(sp) > 0) 
Fmt_fprint(stderr, "?nonempty stack\n"); 
else 
MP_set(n); 
break; 
} 
case 'd': { 
MP_T x = pop(); 
z = MP_new(0); 
Seq_addhi(sp, x); 
MP_addui(z, x, 0); 
break; 


} 


同样 ， 对 z 赋 值 后 ， 该 值 会 被 主 循环 中 的 代码 压 栈 。 


19.3 


(mp.c 


= 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


#include 


实现 


<ctype.h> 
<string.h> 
<stdio.h> 
<stdlib.h> 
<limits.h> 
"assert.h" 
"fmt.h" 
"mem.h" 
"xp.h" 
"mp.h" 


#define T MP_T 


(macros 


270) 


(data 


269) 


(static functions 


281) 


(functions 


270) 


(data 


269) = 
const Except_T MP_Dividebyzero = { "Division by zero" }; 


const Except_T MP_Overflow = { "Overflow" }; 


XP 接口 将 一 个 (二 进 制 下 〉n-bit 数 表示 状 n/8 (n-1)/8+1 个 字 














D> BIKAR WEG (n 总 是 正 数 ) 。 下 图 说 明了 MP 接口 如 何 解 释 这 
些 字 节 。 图 中 最 右 侧 为 最 低 有 效 字 节 ， 由 此 同 左 ， 地 址 逐渐 增 大 。 





(n-1)/8  (n-1)/8-1 byte 0 


a 
eh wA fal 


符号 位 为 比特 位 n-1， 即 字 节 (n-1)/8 中 的 比特 位 (n-1) mod 8. AE 
n，MP 除 了 将 n 保 存 为 nbits 之 外 ， 还 计算 三 个 其 关注 的 值 ，nbytes， 容 纳 
n 个 比特 位 所 需 的 字 节 数 ; shift， 计 算 符号 位 时 ， 最 高 有 效 字 节 必须 右 
移 的 比特 位 数 ， 和 msb， 一 个 掩 码 ， 其 中 有 shift+1 个 比特 位 置 位 ， 用 于 
检测 溢出 。 当 n 为 32 时 ， 这 些 值 分 别 是 : 











(data 


269) += 

static int nbits = 32; 

static int nbytes = (32-1)/8 + 1; 
static int shift = (32-1)%8; 


static unsigned char msb = OxFF; 


根据 上 述 的 建议 ，MP 使 用 nbytes 和 shift 访 问 符号 位 : 


(macros 


270) = 


#define sign(x) ((x)[nbytes-1]>>shift ) 


这 些 值 通过 MP _set 改 变 : 


(functions 


270) = 
int MP_set(int n) { 


int prev = nbits; 


assert(n > 1); 


(initialize 


270) 


return prev; 


} 
(initialize 
270) = 

nbits =n; 


nbytes = (n-1)/8 + 1; 
shift = (n-1)%8; 


msb = ones(n); 


(macros 


270) += 
#define ones(n) (~(~QUL<<(((n)-1)%8+1) ) ) 


将 ~0 左 移 (n-1)%8+1 个 比特 位 ， 形 成 如 下 的 掩 码 : 一 连 串 值 为 1 的 比特 
位 ， 后 接 (n-1) mod 8+1 个 值 为 0 的 比特 位 ， 取 反 后 ， 掩 码 的 最 低位 部 
分 ， 有 (n-1) mod 8+1 个 置 位 的 比特 位 。 之 所 以 用 这 种 方法 定义 ones 宏 ， 
是 因为 除了 传递 给 MP _set 的 值 之 外 ， 它 还 用 作 其 他 的 n 值 。 

MP_set 还 分 配 了 一 些 临时 空间 ， 供 算术 函数 使 用 ， 如 MP _div。 
而 ， 该 分 配 操作 只 在 MP_set 中 进行 一 次 ， 而 不 是 在 各 个 算术 函数 中 重复 
进行 。MP_set 分 配 了 足够 的 空间 ， 可 容纳 一 个 占 2.nbyte+2 字 节 的 临时 
MP_T 实 例 ， 和 三 个 占用 nbyte 字 节 的 临时 MP_T 实 例 。 


(data 


269) += 
static unsigned char temp[16 + 16 + 16 + 2*16+2]; 


static T tmp[] = {temp, temp+1*16, temp+2*16, temp+3*16}; 


(initialize 


270) += 
if (tmp[0] != temp) 
FREE(tmp[0]); 
if (nbytes <= 16) 
tmp[0] = temp; 
else 
tmp[0] = ALLOC(3*nbytes + 2*nbytes + 2); 
tmp[1] = tmp[0] + i1*nbytes; 
tmp[2] = tmp[0] + 2*nbytes; 
tmp[3] = tmp[0] + 3*nbytes; 


当 nbytes 不 超过 16 时 〈 或 当 n 不 超过 128 时 ) ，MP_set 可 以 使 用 静态 分 配 
的 temp。 否 则 ， 它 必须 为 临时 变量 分 配 空 间 。temp 是 必需 的 ， 因 为 MP 
的 初始 化 语义 ， 已 经 隐 含 了 MP_set(32) 的 语义 。 





大 部 分 MP 函数 都 调用 XP 接 口 函 数 ， 来 对 nbyte 字 节 的 数值 执行 实际 
的 算术 运算 ， 接 下 来 检查 结果 是 否 超过 nbits 个 比特 位 。MP_new 和 
MP_fromintu 说 明了 这 种 策略 。 


(functions 


270) += 


T MP_new(unsigned long u) { 


return MP_fromintu(ALLOC(nbytes), u); 


T MP_fromintu(T z, unsigned long u) { 


unsigned long carry; 


assert(Z); 


(set 


U 271) 


(test for unsigned overflow 


271) 


return Z; 


(set 


U 271) = 

carry = XP_fromint(nbytes, z, u); 
carry |= z[nbytes-1]& ~msb; 
Zz[nbytes-1] &= msb; 


如 果 XP_fromint 返 回 非 零 的 carry 值 ， 那 么 nbytes 个 字 节 无 法 容纳 u。 如 果 
carry 为 0， 那 么 nbytes 个 字 节 可 以 容纳 u， 但 nbits 个 比特 位 不 见得 能 容纳 
u。MP_fromintu 必 须 确保 ， 在 z 的 最 高 有 效 字 节 中 ，8 - (shift + 1) 个 最 高 
有 效 比 特 位 都 是 0。MP_set 已 经 将 msb 设 置 为 一 个 掩 码 ， 在 最 低 有 效 位 
部 分 有 shift+1 个 1， 因 此 ~msb 可 用 于 隔离 出 MP_fromintu 所 需 的 各 比特 
位 ， 然 后 需要 将 该 值 按 位 或 到 carry 中 ， 以 判断 是 否 有 液 出。 测试 无 符号 


溢出 时 ， 只 需要 检测 carry: 

















(test for unsigned overflow 


271) = 
if (carry) 


RAISE(MP_Overflow); 


请 注意 ，MP_fromintu 在 检测 溢出 之 前 ， 已 经 设置 了 z 的 值 ， 按 照 接 口 说 
明 ， 所 有 MP 函数 都 必须 在 引发 异 浓 之 前 设置 其 结果 。 








检验 有 符 写 游 出 稍微 有 点 复 森 ， 
MP_fromint 说 明了 一 个 简单 情形 。 


(functions 


270) += 
T MP_fromint(T z, long v) { 
assert(Z); 


(set 


vV 272) 


if ( (v is too big 


272) ) 
RAISE(MP_Overflow); 


return Z; 


因为 这 取决 于 涉及 的 操作 。 


首先 ，MP_fromint 将 z 初 始 化 为 v 的 值 ， 并 注意 只 向 XP_fromint 传 递 正 
值 : 


(set 


z to 


v 272) = 

if (v == LONG_MIN) { 
XP_fromint(nbytes, z, LONG MAX + 1UL); 
XP_neg(nbytes, z, z, 1); 

} else if (v < 0) { 
XP_fromint(nbytes, z, -v); 
XP_neg(nbytes, z, Z, 1); 

} else 
XP_fromint(nbytes, z, v); 


Z[nbytes-1] &= msb; 


HUPS Nit AAD PE A: z 首 先 设置 为 v 的 绝对 值 ， 然 后 求 补 《〈 将 1 作为 
XP_neg 的 第 四 个 参数 ) 。MP_fromint 必 须 专 门 处 理 大 部 分 负 整 数 ， 因 为 
它 不 能 对 其 取 反 。 如 果 v 为 负数 ，z 的 最 高 位 部 分 各 个 比特 位 都 是 1， 过 
多 的 比特 位 必须 丢弃 。 许 多 MP 函数 使 用 上 文 给 出 的 z[ nbytes - 1] &= 
msb 惯 用 法 ， 来 丢弃 z 的 最 高 有 效 字 节 中 过 多 的 比特 位 。 























对 于 MP_fromint， 当 nbits 小 于 long 的 位 宽 且 v 超 出 了 z 的 表示 苑 
时 ， 将 出 现 符号 溢出 。 


(v is too big 


272) = 
(nbits < 8*(int)sizeof (v) && 


(v < -(1L<<(nbits-1)) || v >= (1L<<(nbits-1)))) 





上 式 中 的 两 个 移 位 表达 式 ， 分 别 计算 了 位 略为 np 的 有 符 写 整数 中 最 小 的 
负数 和 最 大 的 正 数 。 


19.3.1 转换 


MP_toint 和 MP_cvt 说 明了 检查 符号 洲 出 的 男 一 个 例子 : 


(functions 


270) += 
long MP_toint(T x) { 


unsigned char d[sizeof (unsigned long) ]; 


assert(x); 


MP_cvt(8*sizeof d, d, x); 


return XP_toint(sizeof d, d); 


如 果 d 无 法 容纳 X，MP _cvt 将 引发 MP_Overflow 异 常 ， 如 果 d 可 以 容纳 X， 
XP _ toint 返 回 期 望 值 。 


MP_cvt 进 行 了 两 种 转换 : 它 会 将 位 宽 较 大 的 MP_T 实 例 转换 为 位 视 
较 小 的 MP_T 实 例 ， 同 样 也 包括 相反 的 过 程 。 


(functions 


270) += 
T MP_cvt(int m, Tz, T x) { 


int fill, i, mbytes = (m - 1)/8 + 1; 


assert(m > 1); 


(checked runtime errors for unary functions 


273) 
fill = sign(x) ? OxFF : 0; 
if (m < nbits) { 


(narrow signed 


x 273) 
} else { 


(widen signed 


x 274) 
} 


return Z; 


(checked runtime errors for unary functions 


273) = 


assert(x); assert(z); 


gu km/)Fnbits, MP_cvtke “4a 7e"x, FRI z. eR hae 

查 符 号 溢出 。 如 果 x 中 的 比特 位 m-1 2! 到 比特 位 nbits-1， 或 者 为 全 0， 或 
者 为 全 1， 那 么 m 个 比特 位 即 可 容纳 x， 即 ， 如 果 x 中 过 多 的 比特 位 都 等 
于 x 的 符号 位 ， 那 么 即 可 将 x 当做 位 宽 为 m 的 整数 处 理 。 在 下 述 的 代码 块 
中 ， 如 果 x 为 负数 ，fil 为 0xFF， 奋 则 {fil 为 0 ， 因 此 ， 如 果 比 特 位 x [m - 
1..nbits - 1] 包 都 是 1 或 都 是 90，x[ 订 ^f 记 应 该 为 0。 


(narrow signed 


x 273) = 
int carry = (x[mbytes-1]^fill) & ~(ones(m) >> 1) 


[3] 


for (i = mbytes; i < nbytes; i++) 
carry |= x[i]4fill; 

memcpy(z, x, mbytes); 

z[mbytes-1] &= ones(m); 

if (carry) 


RAISE(MP_Overflow) ; 


如 果 x 在 范围 内 ，carry 最 终 的 值 为 0， 否 则 ，carry 的 一 些 比特 位 将 变 为 
1。 对 carry 的 初始 赋值 ， 忽 略 了 z 中 非 符号 位 的 比特 位 多 。 


如 果 m 不 小 于 nbits，MP_cvt 将 “加 宽 冯 ， 并 将 其 赋值 给 z。 这 种 情况 
下 不 会 及 生 注 出， 但 MP_cvt 必 须 扩 展 x 的 符号 位 ， 符 号 位 由 岂 ] 给 出 。 


(widen signed 


X 274) = 
memcpy(z, x, nbytes); 
z[nbytes-1] |= fill& ~msb; 
for (i = nbytes; i < mbytes; i++) 
z[i] = fill; 


z[mbytes-1] &= ones(m); 


MP tointu 使 用 一 种 类 似 的 方法 : 它 通 过 调用 MP_cvtu 将 x 转 换 为 一 
个 MP_T 实 例 ， 后 者 的 位 宽 等 同 于 unsigned long， 然 后 调用 XP_toint 返 回 
其 值 。 


(functions 


270) += 
unsigned long MP_tointu(T x) { 


unsigned char d[sizeof (unsigned long) ]; 


assert(x); 
MP_cvtu(8*sizeof d, d, x); 


return XP_toint(sizeof d, d); 


JPE, MP_cvtubk ay Ex, NKEDE”, AGAVE Az. 


(functions 


270) += 
T MP_cvtu(int m, T z, T x) { 


int 1, mbytes = (m - 1)/8 + 1; 


assert(m > 1); 


(checked runtime errors for unary functions 


273) 
if (m < nbits) { 


(narrow unsigned 


x 274) 
} else { 


(widen unsigned 


x 274) 
} 


return Z; 


当 m 小 于 nbits 时 ， 如 果 x 的 比特 位 m 到 nbits-1 中 ， 有 任何 一 个 比特 位 为 
1， 都 会 造成 溢出 ， 检 查 该 情形 的 代码 类 似 于 MP_cvt 中 使 用 的 代码 ， 但 


要 简单 些 : 





(narrow unsigned 


x 274) = 
int carry = x[mbytes-1]& ~ones(m); 
for (i = mbytes; i < nbytes; i++) 
carry |= x[i]; 
memcpy(z, x, mbytes); 
z[mbytes-1] &= ones(m); 


(test for unsigned overflow 


271) 


当 m 不 小 于 nbits 时 ， 不 可 能 发 生 滚 出 ，z 中 多 余 的 比特 位 将 清 零 : 


‘widen unsigned 


x 274) = 
memcpy(z, x, nbytes); 
for (i = nbytes; i < mbytes; i++) 


z[i] = 0; 


19.3.2 EFSF 


如 MP_cvtu 和 MP_cvt 的 代码 所 示 ， 与 对 应 的 有 符号 算术 函数 相 比 ， 
无 符号 算术 函数 更 易于 实现 ， 因 为 它们 不 需要 处 理 符 号 ， 而 且 洲 出 的 检 
碍 更 为 简单 。 无 符号 加 法 说 明了 一 种 容易 的 情形 ，XP_add 完 成 了 所 有 
的 工作 。 





(functions 


270) += 
T MP_addu(T z, T x, Ty) { 


int carry; 


(checked runtime errors for binary functions 


275) 
carry = XP_add(nbytes, z, xX, y, 0); 
carry |= z[nbytes-1]& ~msb; 
Zz[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 


return Z; 


(checked runtime errors for binary functions 


275) = 


assert(x); assert(y); assert(z); 


WTA TAPE Ta APL, HEM SEEM aM) 时 ， 将 引发 


MP Overflow: tf : 


(functions 


270) += 
T MP_subu(T z, T x, Ty) { 


int borrow; 


(checked runtime errors for binary functions 


275) 
borrow = XP_sub(nbytes, z, x, y, 0); 
borrow |= z[nbytes-1]& ~msb; 
z[nbytes-1] &= msb; 


(test for unsigned underflow 


275) 


return Z; 


(test for unsigned underflow 


275) = 
if (borrow) 


RAISE(MP_Overflow) ; 


MP_mul2u 是 最 简单 的 乘法 函数 ， 因 为 其 中 不 可 能 出 现 溢出 。 


(functions 


270) += 
T MP_mul2u(T z, Tx, Ty) { 


(checked runtime errors for binary functions 


275) 
memset(tmp[3], '\O', 2*nbytes); 
XP_mul(tmp[3], nbytes, x, nbytes, y); 
memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 


return Z; 


MP_mul2u 将 结果 计算 到 tmp[3] 中 ， 然 后 将 tmp[3] 复 制 到 z;， 这 使 得 在 调 
用 时 ， 可 以 将 x 或 y 用 作 z， 如 果 MP_mul2u 将 结果 直接 计算 到 z 中 ， 这 样 
就 行 不 通 了 。 因 而 ， 在 MP_set 中 分 配 临 时 空间 的 做 法 ， 不 仅 隔 离 了 分 配 
操作 ， 也 避免 了 对 x 和 y 的 限制 。 











MP_mul 也 调用 了 XP_mul 来 计算 一 个 两 倍 长 度 的 结果 保存 到 
tmp[3]， 然 后 将 该 结果 的 位 宽 “ 缩 罕 ? 到 nbits， 并 将 其 赋值 给 z。 





(functions 


270) += 
T MP_mulu(T z, Tx, T y) { 


(checked runtime errors for binary functions 


275) 
memset(tmp[3], '\O', 2*nbytes); 
XP_mul(tmp[3], nbytes, x, nbytes, y); 
memcpy(z, tmp[3], nbytes); 
z[nbytes-1] &= msb; 


(test for unsigned multiplication overflow 


276) 


return Z; 


如 果 tmp[3] 的 比特 位 nbits 到 2 * nbits - 1 中 ， 有 任何 比特 位 是 1， 乘 积 都 会 
溢出 。 基 本 上 ， 可 以 用 MP_cvtu 中 测试 类 似 情况 的 方法 ， 来 检测 这 种 情 
Hi: 


(test for unsigned multiplication overflow 


276) = 


int i; 
if (tmp[3][nbytes-1]& ~msb) 
RAISE(MP_Overflow) ; 
for (i = 0; i < nbytes; i++) 
if (tmp[3][itnbytes] != 0) 
RAISE(MP_Overflow) ; 


通过 将 y 复 制 到 一 个 临时 变量 ，MP_divu 避 免 了 XP_div 对 其 参数 的 
限制 : 


(functions 


270) += 
T MP_divu(T z, T x, Ty) {£ 


(checked runtime errors for binary functions 


275) 


(copy 


y to a temporary 


276) 
if (!XP_div(nbytes, z, x, nbytes, y, 
RAISE(MP_Dividebyzero); 


return Z; 


(copy 


y to a temporary 


276) 


memcpy(tmp[1], y, nbytes); 
y = tmp[1]; 


tmp[2], 


tmp[3])) 


tmp[2] 包 含 了 余数 ， 将 被 丢弃 ，y 的 值 首先 复制 到 tmp[1]， 而 后 y 叉 设置 
为 指向 tmp[1] 对 应 的 MP_T 实 例 。tmp[3] 是 XP_div 所 需 的 长 度 为 2 * nbyte 
+ 2 个 字 节 的 临时 变量 。MP_modu 类 似 ， 但 它 使 用 tmp[2] 来 保存 商 : 


(functions 


270) += 
T MP_modu(T z, T x, Ty) {£ 


(checked runtime errors for binary functions 


275) 


(copy 


y to a temporary 


276) 
if (!XP_div(nbytes, tmp[2], x, nbytes, y, z, tmp[3])) 


RAISE(MP_Dividebyzero); 


return Z; 


19.3.3 有 符号 算术 


AP 接口 的 符号 一 绝对 值 表 示 法 ， 强 制 要 求 AP_add 考 虑 x 和 y 的 符 
号 。 二 进 制 补 码 表示 的 性 质 ， 使 得 MP_add 可 以 避免 这 种 按 情况 分 析 的 
做 法 ， 无 论 x 和 y 的 符号 如 何 ， 只 需要 调用 XP_add 即 可 。 因 而 ， 有 符号 
加 法 几乎 与 无 符号 加 法 相同 ， 唯 一 重要 的 区 别 是 对 溢出 的 检测 。 





(functions 


270) += 
T MP_add(T z, T x, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 
sx = sign(x); 


sy = sign(y); 


XP_add(nbytes, z, x, y, 0); 
z[nbytes-1] &= msb; 


(test for signed overflow 


277) 


return Z; 





在 加 法 中 ， 当 x 和 y 符 号 相同 时 ， 才 可 能 发 生 洲 出 。 当 和 值 溢出 时 ， 
号 不 同 于 x 和 y 的 符号 : 


(test for signed overflow 


277) = 
if (sx == sy && sy != sign(z)) 
RAISE(MP_Overflow) ; 


有 符 写 减法 的 形式 与 加 法 相同 ， 但 对 洲 出 的 检测 不 同 。 


(functions 


270) += 


T MP_sub(T z, Tx, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 
sx = sign(x); 
sy = sign(y); 
XP_sub(nbytes, z, X, y, 0); 
z[nbytes-1] &= msb; 


(test for signed underflow 


278) 


return Z; 





对 于 减法 来 说 ， 当 x 和 y 符 号 不 同时 ， 才 可 能 发 生 下 洲 。 当 x 为 正 数 而 y 为 
负数 时 ， 结 果 应 该 是 正 数 ， 当 x 为 负数 而 y 为 正 数 时 ， 结 果 应 该 是 负数 。 
因而 ， 如 果 x 和 y 符 号 不 同 ， 而 结果 的 符号 与 y 相 同 ， 那 么 就 及 生 了 下 


ras 
Yim. o 


(test for signed underflow 


278) = 
if (sx != sy && sy == sign(z)) 
RAISE(MP_Overflow); 





对 x 取 反 ， 等 效 于 从 零 减 去 x: 仅 当 x 为 负数 时 ， 才 可 能 发 生 溢出 ， 
当 结 果 上 溢 时 ， 其 仍然 为 负数 。 


(functions 


270) += 
T MP_neg(T z, T x) { 


int sx; 


(checked runtime errors for unary functions 


273) 
sx = sign(x); 
XP_neg(nbytes, z, x, 1); 
Zz[nbytes-1] &= msb; 
if (sx && sx == sign(Zz)) 


RAISE(MP_Overflow) ; 


return Z; 


MP_neg 必 须 清 除 z 蜗 位 部 分 的 过 多 比特 位 ， 因 为 当 x 是 正 数 时 ， 这 些 比 
特 位 都 将 是 0。 





实现 符号 乘法 最 容易 的 方式 是 ， 对 负 的 操作 数 取 反 ， 执 行 无 符号 乘 
法 ， 当 两 个 操作 数 符 号 不 同时 ， 再 对 结果 取 反 。 对 于 MP_mul2， 不 可 能 
发 生 洪 出 ， 因 为 它 计 算 了 一 个 双 倍 长 度 的 结果 ， 其 细 诈 易于 填充 : 





(functions 


270) += 
T MP_mul2(T z, T x, Ty) € 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 


(tmp[3] -~ x-y 


278) 


if (sx != sy) 

XP_neg((2*nbits - 1)/8 + 1, z, tmp[3], 1); 
else 

memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 


return Z; 


(tmp[3] -~ x-y 


sx = sign(x); 


sy = sign(y); 


(if x 


< 0, negate x 


278) 


(if y 


< 0, negate y 


279) 
memset(tmp[3], '\O', 2*nbytes); 


XP_mul(tmp[3], nbytes, x, nbytes, y); 


乘积 有 2 * nbits 个 比特 位 ， 只 需要 z 有 (2* nbits - 1)/8+1 个 字 节 。x 和 y 会 在 
必要 时 取 反 ， 取 反 后 的 值 保存 在 适当 的 临时 变量 中 ， 而 后 使 x 或 y 重 新 指 
向 临 时 变量 。 


(if x 


< 0, negate x 


278) = 

if (sx) { 
XP_neg(nbytes, tmp[0], x, 1); 
x = tmp[0]; 


x[nbytes-1] &= msb; 


(f y 


< 0, negate y 


279) = 
if (sy) { 
XP_neg(nbytes, tmp[1], y, 1); 
y = tmp[1]; 
y[nbytes-1] &= msb; 
} 


按照 惯例 ，MP 接 口 函 数 在 必要 时 会 将 x 和 y 取 反 ， 或 复制 到 tmp[0] 和 
tmp[1] 中 。 


MP_mul 类 似 于 MP_mul2， 但 在 2 * nbits 个 比特 位 的 结果 中 ， 只 有 最 
低位 nbits 个 比特 位 复制 到 z。 当 nbits 个 比特 位 无 法 容纳 结果 时 、 或 操作 
数 符号 相同 而 结果 为 负数 时 ， 将 产生 溢出 。 


(functions 


270) += 
T MP_mul(T z, T x, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 


(tmp[3] =- x-y 


278) 
if (sx != sy) 
XP_neg(nbytes, z, tmp[3], 1); 
else 
memcpy(z, tmp[3], nbytes); 
Zz[nbytes-1] &= msb; 


(test for unsigned multiplication overflow 


276) 
if (sx == sy && sign(z)) 
RAISE(MP_Overflow); 


return Z; 


当 操作 数 符号 相同 时 ， 有 符号 除法 非常 类 似 于 无 符号 除法 ， 因 为 商 
和 余数 都 是 非 负 的 。 仅 当 被 除数 是 C-bit) 最 小 的 负数 、 且 除数 
为 -1 时 ， 才 会 发 生 洲 出 ， 这 种 情况 下 ， 商 将 是 负数 。 





(functions 


270) += 
T MP_div(T z, Tx, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 


sx = sign(x); 


sy = sign(y); 
(if x 


< 0, negate x 


278) 


(if y 


< 0, negate y 


279) else (copy 


y to a temporary 


276) 
if (!XP_div(nbytes, z, x, nbytes, y, tmp[2], tmp[3])) 
RAISE(MP_Dividebyzero); 
if (sx != sy) { 


(adjust the quotient 


280) 


} else if (sx && Sign(z)) 


RAISE(MP_Overflow) ; 
return Z; 


} 





MP_div 或 者 对 y 取 反 ， 把 结果 保存 到 临时 变量 中 ， Oe ini 
临时 变量 中 ， 因 为 y 和 z 可 能 指向 同一 MP_T 实 例 ， 该 函数 使 用 tmp[2] 保 
存 余数 。 


对 有 符号 除法 和 取 模 操作 来 襄 ， 比 较 复 杂 的 情形 是 ， 两 个 操作 数 符 
号 不 同时 。 在 这 种 情况 下 ， 商 是 负数 但 必须 同 负 无 穷 大 方 同 舍 入 ， 余 数 
是 正 数 。 其 中 需要 进行 的 校正 ， 与 AP_div 和 AP_mod 所 作 的 相同 : 把 商 
取 反 ， 如 果 余 数 非 零 ， 则 将 商 减 1。 另 外 ， 如 果 无 符号 余数 非 零 ，y 减 去 
该 余数 ， 即 为 正确 的 余数 值 。 








(adjust the quotient 


280) = 

XP_neg(nbytes, z, z, 1); 

if (!iszero(tmp[2])) 
XP_diff(nbytes, z, z, 1); 

Zz[nbytes-1] &= msb; 


(macros 


270) += 
#define iszero(x) (XP_length(nbytes, (x) )==1 && (x)[0]==0) 


MP_div 并 不 校正 余数 ， 因 为 余数 丢弃 挥 了 。MP_mod 所 作 的 刚好 相反 : 
它 只 校正 余数 ， 使 用 tmp[2] 来 保存 商 。 


(functions 


270) += 
T MP_mod(T z, T x, Ty) { 


int sx, sy; 


(checked runtime errors for binary functions 


275) 
sx = sign(x); 
sy = sign(y); 
(if x 


< 0, negate x 


278) 


< 0, 


279) 


276) 


(if y 
negate y 
else (copy 


a temporary 


if (!XP_div(nbytes, tmp[2], x, nbytes, y, 
RAISE(MP_Dividebyzero); 
if (sx != sy) { 
if (!iszero(z)) 
XP_sub(nbytes, z, y, Zz, O); 
} else if (sx && sign(tmp[2])) 
RAISE(MP_Overflow); 


Z, 


tmp[3])) 


return Z; 


19.3.4 便捷 函数 


算术 便捷 函数 用 一 个 long 或 unsigned long 作 为 立即 操作 数 ， 如 有 必 
要 将 其 转换 为 MP_T 实 例 ， 而 后 执行 对 应 的 算术 操作 。 当 y 在 基数 28 下 只 
有 单个 数位 时 ， 这 些 函 数 可 以 使 用 XP 接 口 导出 的 单数 位 函数 。 但 有 两 
种 情况 可 能 导致 溢出 : y 太 大 ， 或 操作 本 和 丑 可 能 淤 出 。 如 果 y 太 大 ， 这 些 
函数 必须 在 引发 异常 之 前 完成 操作 并 赋值 给 z。MP_addui 说 明了 所 有 便 
捷 函 数 使 用 的 这 种 方法 : 





(functions 


270) += 
T MP_addui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


273) 
if (y < BASE) { 
int carry = XP_sum(nbytes, z, xX, y); 


carry |= z[nbytes-1]& ~msb; 


Zz[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 
} else if (applyu(MP_addu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


(macros 


270) += 
#define BASE (1<<8) 


如 果 y 只 有 一 个 数位 ，XP_sum 可 以 计算 x+y。 当 nbits 小 于 8 且 y 太 大 时 ， 
该 代码 也 能 检测 到 溢出 ， 因 为 和 值 对 任何 x 值 来 说 ， 都 太 大 了 。 人 否则 ， 
MP_addui 调 用 applyu 将 y 转 换 为 MP_T 实 例 ， 以 便 使 用 更 通用 的 函数 
MP_addu。 如 果 y 太 大 ，applyu 仅 会 在 计算 z 之 后 返回 1: 





(static functions 


281) = 
static int applyu(T op(T, T, T), Tz, TX, 
unsigned long u) { 


unsigned long carry; 


{ T z = tmp[2]; (set 


z to 
u 271) } 
op(z, x, tmp[2]); 
return carry != 0; 
} 


applyu 使 用 MP _fromintu 中 的 代码 将 unsigned long 操作 数 转 换 到 tmp[2] 
中 。 它 保存 了 转换 操作 出 现 的 进位 ， 因 为 转换 也 可 能 溢出 。 接 下 来 它 调 
用 其 第 一 个 参数 指定 的 函数 ， 如 果 保 存 的 进位 值 非 零 ， 则 返回 1， 人 否则 
返回 90。 函数 op 也 可 能 引发 异常 ， 但 仅 当 设置 z 值 之 后 ， 才 会 引发 异常 。 











无 符号 减法 和 乘法 的 便捷 函数 是 类 似 的 。 当 y 小 于 28 时 ，MP_subui 
调用 MP_diff。 


(functions 


270) += 
T MP_subui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


275) 
if (y < BASE) { 
int borrow = XP_diff(nbytes, z, x, y); 
borrow |= z[nbytes-1]& ~msb; 
z[nbytes-1] &= msb; 


(test for unsigned underflow 


275) 
} else if (applyu(MP_subu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


当 y 太 大 时 ，x-y 对 所 有 x 都 会 发 生 下 洲 ， 因 此 在 调用 XP_diff 之 前 
MP_subui 不 需要 检查 y 是 否 太 大 。 





MP_mului 调 用 MP_product， 但 在 nbits 小 于 8 时 ，MP_mului 必 须 显 式 
检查 y 是 否 太 大 ， 因 为 当 x 为 0 时 XP_product 不 会 捕获 该 错误 。 该 检查 在 
计算 z 之 后 进行 。 


T MP_mului(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


275) 
if (y < BASE) { 
int carry = XP_product(nbytes, z, x, y); 
carry |= z[nbytes-1]& ~msb; 
Z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 


(check if unsigned y is too big 


282) 
} else if (applyu(MP_mulu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


(check if unsigned 


y is too big 


282) = 
if (nbits < 8 && y >= (1U<<nbits) ) 


RAISE(MP_Overflow) ; 


MP_divui 和 MP_modui 使 用 了 XP_quotient， 但 它们 必须 自行 检查 除 
数 为 零 的 情形 〈 因 为 XP_quotient 只 接受 非 零 、 单 数位 的 除数 ) ， 当 nbits 
小 于 8 且 y 太 大 时 ， 它 们 必须 检查 是 否 发 生 了 溢出 。 





(functions 


270) += 
T MP_divui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


RAISE(MP_Dividebyzero) ; 
else if (y < BASE) { 
XP_quotient(nbytes, z, x, y); 


(check if unsigned 


y is too big 


282) 
} else if (applyu(MP_divu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


MP_modui 调 用 XP_quotient， 但 只 是 为 了 计算 余数 。 它 会 丢弃 计算 
到 tmp[2] 中 的 商 : 


(functions 


270) += 
unsigned long MP_modui(T x, unsigned long y) { 
assert(x); 
if (y == 0) 
RAISE(MP_Dividebyzero); 
else if (y < BASE) { 
int r = XP_quotient(nbytes, tmp[2], x, y); 


(check if unsigned 


y is too big 


282) 
return r; 
} else if (applyu(MP_modu, tmp[2], x, y)) 
RAISE(MP_Overflow) ; 
return XP_toint(nbytes, tmp[2]); 
} 


有 符号 算术 的 各 个 便捷 函数 使 用 了 同样 的 方法 ， 但 调用 一 个 不 同 的 
apply 函 数 ， 其 使 用 MP_fromint 的 代码 将 long 转 换 为 有 符号 MP_T 实 例 并 
保存 到 tmp[2]， 而 后 调用 所 需 的 函数 ， 如 果 立 即 操作 数 太 大 则 返回 1， 
否则 返回 0。 


(static functions 


281) += 

static int apply(T op(T, T, T), T z, T x, long v) { 
{ T z = tmp[2]; (set z to v 272) } 
op(z, x, tmp[2]); 


return <v is too big 


272) ; 


当 |y| 小 于 28 时 ， 与 对 应 的 无 符号 便捷 函数 相 比 ， 有 符号 便捷 函数 需 
要 多 做 一 些 工 作 ， 因 为 它们 必须 处 理 有 符号 操作 数 。 单 数位 XP 函数 只 
处 理 正 的 单数 位 操作 数 ， 因 此 有 符号 便捷 函数 必须 使 用 操作 数 的 符号 来 
确定 调用 哪个 函数 。 这 里 的 分 析 ， 类 似 于 AP 函数 所 作 的 分 析 《〈《 人 参见 
18.3.1775) ， 但 MP 的 二 进 制 补 码 表示 简化 了 细节 。 这 里 是 加 法 的 4 种 情 
He. 


y<0 y20 





-x|+|M)= x-xi -(xl-IM) = x + |y 
x20 ixl -Iyi = x-| x| +1y = x+|yi 





当 y 为 负数 时 ， 对 任意 x， 都 有 x+y 等 于 X-|ly|， 因 此 MP_addi 可 以 使 用 


XP_diff 来 计算 和 值 ， 当 y 为 非 负 时 ， 它 可 以 使 用 XP_sum。 


(functions 


270) += 
T MP_addi(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < O; 
if (sy) 
XP_diff(nbytes, z, x, -y); 
else 
XP_sum (nbytes, z, xX, y); 
z[nbytes-1] &= msb; 


(test for signed overflow 


277) 


(check if signed 


y is too big 


283) 
} else if (apply(MP_add, z, x, y)) 
RAISE(MP_Overflow); 


return Z; 


(check if signed 


y is too big 


283) = 

if (nbits < 8 

&& (y < -(1<<(nbits-1)) || y >= (1<<(nbits-1)))) 
RAISE(MP_Overflow) ; 


有 符号 减法 的 情形 刚好 与 加 法 相反 (AP_sub 的 情形 参见 18.3.2 






x 
W 
© 





-(|x| - Iyi) 
Ix| + Iyi 





xX+|M -xl +1) = x-|yl 
x + |y] xl -1 = x-]y 


x20 


因此 ， 当 y 为 负数 时 ，MP_subi 调 用 XP_sum 将 |y| 加 到 x， 而 y 为 非 负 
时 ， 则 调用 XP_diff。 


(functions 


270) += 
T MP_subi(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y & y < BASE) { 
int sx = sign(x), sy = y < 0; 
if (sy) 
XP_sum (nbytes, z, x, -y); 
else 
xP_diff (nbytes, z, x, y); 
z[nbytes-1] &= msb; 


(test for signed underflow 


278) 


(check if signed 


y is too big 


283) 
} else if (apply(MP_sub, z, x, y)) 
RAISE(MP_Overflow); 


return Z; 


MP_muli 使 用 MP_mul 的 策略 : 它 对 负 操 作 数 取 反 ， 通 过 调用 
XP_product 计 算 乘 积 ，《〈 当 操作 数 符号 不 同时 ) 再 将 乘积 取 反 。 


(functions 


270) += 
T MP_muli(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < Q; 


(if x 


< ©, negate x 


278) 
XP_product(nbytes, z, x, sy ? -y : y); 
if (sx != sy) 
XP_neg(nbytes, z, x, 1); 
Zz[nbytes-1] &= msb; 
if (sx == sy && sign(z)) 
RAISE(MP_Overflow) ; 


(check if signed 


y is too big 


283) 
} else if (apply(MP_mul, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


MP_divi 和 MP_modi 必 须 检 查 除数 为 0 的 情形 ， 因 为 它们 调用 
XP_quotient 来 计算 商 和 余数 。MP_divi 技 弃 余 数 ， 而 MP_modi 技 弃 商 : 


(functions 


) += 
T MP_divi(T z, T x, long y) { 


(checked runtime errors for unary functions 


RAISE(MP_Dividebyzero); 
else if (-BASE < y && y < BASE) { 
int r; 


(Z — X/Y, F — x mod y 


285) 


(check if signed y is too big 


283) 
} else if (apply(MP_div, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


long MP_modi(T x, long y) { 
assert(x); 
if (y == 0) 
RAISE(MP_Dividebyzero); 
else if (-BASE < y && y < BASE) { 
T z = tmp[2]; 
int r; 


(Z - X/Y, F =X mod y 


285) 


(check if signed y is too big 


283) 
return r; 
} else if (apply(MP_mod, tmp[2], x, y)) 
RAISE(MP_Overflow) ; 
return MP_toint(tmp[2]); 
} 


MP_modi 调 用 MP_toint 而 不 是 XP_toint， 以 确保 符号 的 正确 扩展 。 


MP_divi 和 MP_modi 共 同 使 用 的 代码 块 用 于 计算 商 和 余数 ， 并 且 在 x 
和 y 符 号 不 同 且 余数 非 零 时 校正 商 和 余数 。 


(Z - X/Y, r - x mod y 


285) = 
int sx = sign(x), sy = y < Q; 


(if x 


< 0, negate x 


278) 
r = XP_quotient(nbytes, z, x, sy ? -y : y); 
if (sx != sy) { 
XP_neg(nbytes, z, z, 1); 
if (r != 0) { 
XP_diff(nbytes, z, z, 1); 
r=y- Pr; 
} 
z[nbytes-1] &= msb; 
} else if (sx && sign(z)) 


RAISE(MP_Overflow); 


19.3.5 ”比较 和 逻辑 操作 


无 符号 比较 很 容易 ，MP_cmp 可 以 只 调用 XP_cmp: 


(functions 


270) += 

int MP_cmpu(T x, T y) { 
assert(x); 
assert(y); 


return XP_cmp(nbytes, x, y); 


} 
当 x 和 y 符 写 不 同时 ，MP_cmp(X, y) 只 是 返回 y 和 x 符号 的 差 : 


(functions 


270) += 
int MP_cmp(T x, T y) { 


int sx, Sy; 


assert(x); 
assert(y); 
sx = sign(x); 
sy = sign(y); 
if (sx != sy) 
return sy - SX; 
else 
return XP_cmp(nbytes, x, y); 
} 


当 x 和 y 符 号 相同 时 ，MP_cmp 可 以 将 其 当做 无 符号 数 处 理 ， 调 用 XP_cmp 
进行 比较 。 


进行 比较 操作 的 便捷 函数 无 法 使 用 applyu 和 apply， 因 为 它们 计算 整 
数 结果 ， 而 且 不 要 求 其 long 或 unsigned long 操作 数 一 定 能 够 放 入 到 一 个 
MP_T 实 例 中 。 这 些 函 数 只 是 比较 一 个 MP_T 实 例 与 一 个 立即 数 ， 当 立即 


数 的 值 太 大 时 ， 将 在 比较 的 结果 中 反映 出 来 。 当 unsigned long 的 位 宽 不 
小 于 nbits 时 ，MP_cmpui 将 MP_T 实 例 转换 为 一 个 unsigned ”long 类 型 的 
值 ， 并 使 用 C 语 言 中 通常 的 比较 运算 符 。 和 否则， 它 将 立即 数 转换 为 一 个 


MP_T 实 例 〈tmp[2]) ， 并 调用 XP_cmp。 


(functions 


270) += 
int MP_cmpui(T x, unsigned long y) { 
assert(x); 
if ((int)sizeof y >= nbytes) { 
unsigned long v = XP_toint(nbytes, 


(return 


-1, 0, +1, if 


v<y, V=y, V> y 286) 
} else { 
XP_fromint(nbytes, tmp[2], y); 


return XP_cmp(nbytes, x, tmp[2]); 


x); 


(return 


-1, 0, +1, if 


v<y, V=y, v> y 286) = 
if (v < y) 
return -1; 
else if (v > y) 
return 1; 
else 


return 0; 


MP_cmpui 在 调用 XP_fromint 之 后 人 不必 检查 洲 出 ， 因 为 仪 当 y 的 位 宽 小 于 
MP_T 实 例 时 ， 才 会 进行 该 调用 。 


当 x 和 y 符 号 不 同时 ，MP_cmpi 可 以 彻底 避免 比较 。 人 否则 ， 它 使 用 
MP_cmpui 的 方法 : 如 果 立 即 数 的 位 宽 不 小 于 MP_T 实 例 ， 则 用 C 语 言 比 
较 运 算 符 进行 比较 。 


(functions 


270) += 


int MP_cmpi(T x, long y) { 


int sx, sy = y < 0; 


assert(x); 

sx = sign(x); 

if (sx != sy) 
return sy - SX; 

else if ((int)sizeof y >= nbytes) { 
long v = MP_toint(x); 


(return 


-1, ©, +1, if 


v< y, V=y, v> y 286) 
} else { 


MP_fromint(tmp[2], y); 


return XP_cmp(nbytes, x, tmp[2]); 


当 x 和 y 符 号 相同 且 y 的 位 宽 小 于 MP_T 的 位 宽 时 ，MP_cmpi 可 以 安全 地 将 


y 转 换 为 MP_T 实 例 (tmp[2]) ， 然 后 调用 XP_cmp 比 较 X 和 tmp[2]。 
MP_cmpi 调 用 MP_fromint 而 不 是 XP_fromint， 以 便 正 确 地 处 理 y 为 负 值 的 


情形 。 





二 元 逻辑 函数 MP and、MP_or 和 MP _xor 是 最 容易 实现 的 MP 函数 ， 
因为 结果 的 每 个 字 节 ， 都 是 操作 数 中 对 应 字 节 按 位 运算 得 出 : 








(macros 


270) += 


#define bitop(op 


) \ 
int i; assert(z); assert(x); assert(y); \ 
for (i = 0; i < nbytes; i++) z[i] = x[i] op 
yli]; \ 


return z 


(functions 


270) + 三 

T MP_and(T z, T x, T y) { bitop(&); } 
T MP_or (Tz, T x, T y) { bitop(]|); } 
T MP_xor(T z, T x, T y) { bitop(‘); } 


MP_not 有 些 古 怪 ， 不 符合 bitop 的 模式 : 


(functions 


270) += 
T MP_not(T z, T x) { 


int 1; 


(checked runtime errors for unary functions 


273) 
for (i = 0; i < nbytes; i++) 
z[i] = ~x[i]; 
z[nbytes-1] &= msb; 


return Z; 


对 这 三 个 实现 逻辑 运算 的 便捷 函数 来 说 ， 专 门 为 单数 位 操作 数 编写 
特殊 处 理 代码 难 有 所 获 ， 而 将 立即 操作 数 传递 给 这 些 函 数 并 不 会 导致 异 
常 。applyu 仍 然 可 以 使 用 ， 其 返回 值 只 是 被 忽略 而 已 。 


(macros 


270) += 


#define bitopi(op 


) assert(z); assert(x); \ 


applyu(op 


了 Z, X, y); \ 


return z 


(functions 


270) += 


T MP_andi(T z, T x, unsigned long y) { bitopi(MP_and); } 


T MP_ori (T z, T x, unsigned long y) { bitopi(MP_or); } 


T MP_xori(T z, T x, unsigned long y) { bitopi(MP_xor); } 





三 个 移 位 函数 首先 确认 已 检查 的 运行 时 错误 ， 然 后 检查 s$ 是 否 大 于 
等 于 nbits 〈 这 种 情况 下 ， 结 果 的 各 比特 位 为 全 0 或 全 1) ， 最 后 调用 
XP_lshift 或 XP_rshift。XP_ashift 将 空 出 的 比特 位 填充 1， 因 而 实现 了 算 
术 右 移 。 








(macros 


270) += 
#define shft(fill, op 


) \ 
assert(x); assert(z); assert(s >= 0); \ 


if (s >= nbits) memset(z, fill 


, nbytes); \ 


else op 


(nbytes, z, nbytes, x, s, fill 


); \ 
Zz[nbytes-1] &= msb; \ 


return z 


(functions 


270) += 

T MP_lshift(T z, T x, int s) { shft(0, XP_lshift); } 

T MP_rshift(T z, T x, int s) { shft(0, XP_rshift); } 

T MP_ashift(T z, T x, int s) { shft(sign(x),XP_rshift); } 


19.3.6 ”字符 品 转 换 


最 后 四 个 函数 负责 字符 串 与 MP_T 实 例 之 间 的 转换 。MP_fromstr 类 
似 于 strtoul， 它 将 字符 串 解释 为 菜 个 基数 L2~36 (8) ] 下 的 无 符号 
数 。 对 于 大 于 10 的 基数 来 说 ， 字 母 用 于 指定 大 于 9 的 数位 。 





(functions 


270) += 
T MP_fromstr(T z, const char *str, int base, char **end){ 


int carry; 


assert(Z); 

memset(z, '\O', nbytes); 

carry = XP_fromstr(nbytes, z, str, base, end); 
carry |= z[nbytes-1]& ~msb; 

z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 


return Z; 


XP_fromstr 执 行 转换 ，“《〈 如 果 end 不 是 NULL ) 并 将 *end 设 置 为 转换 结束 
处 字符 的 地 址 。z 初 始 化 为 0， 因 为 XP_fromstr 会 将 转换 得 到 的 值 加 到 z 
Rian 


MP_tostr 执 行 反 同 转换 : 它 接受 一 个 MP_T 实 例 ， 并 给 出 该 实例 的 
值 在 茶 个 基数 (2 到 36 之 间 ， 含 ) 下 的 字符 串 表 示 。 


(functions 


270) += 
char *MP_tostr(char *str, int size, int base, T x) { 
assert(x); 
assert(base >= 2 && base <= 36); 
assert(str == NULL || size > 1); 
if (str == NULL) { 


(size ~ number of characters to represent x in 


base 289) 
str = ALLOC(size); 
} 
memcpy(tmp[1], x, nbytes); 
XP_tostr(str, size, base, nbytes, tmp[1]); 


return str; 


如 有 果 str 是 NULL，MP_tostr 分 配 一 个 足够 长 的 字符 串 ， 以 容纳 x 在 base 基 
数 下 的 表示 。MP_tostr 使 用 AP_tostr 的 技巧 来 计算 该 字符 串 的 长 度 : str 
必须 至 少 有 |nbits/k| 个 字符 ， 其 中 k 的 选择 ， 要 使 得 在 2 的 各 个 容 次 
H, 2K 是 小 于 等 于 base 的 最 大 容 次 ， 男 外 还 有 加 上 结尾 的 一 个 0 字符 。 


(size — number of characters to represent x in 


base 289) = 


{ 
int k; 
for (k = 5; (1<<k) > base; k--) 
size = nbits/k + 1 + 1; 

} 


Fmt 风 格 的 转换 函数 格式 化 一 个 无 符号 或 有 符号 的 MP_T 实 例 。 每 个 
转换 函数 消耗 两 个 参数 : 一 个 MP_T 实 例 ， 和 一 个 基数 值 [2 一 
36 (&) ] 。MP_fmtu 调 用 MP _tostr 来 转换 MP_T 实 例 ， 并 调用 Fmt_putd 
来 输出 转换 的 结果 。 回 忆 前 文 可 知 ，Fmt_putd 以 printf 的 %d 转 换 限 定 符 
的 风格 来 输出 一 个 数字 。 


(functions 


270) += 

void MP_fmtu(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
T X; 


char *buf; 


assert(app && flags); 

x = va_arg(*app, T); 

assert(x); 

buf = MP_tostr(NULL, ©, va_arg(*app, int), x); 

Fmt_putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREE(buf); 


MP_fmt 要 做 的 工作 稍 多 一 点 ， 因 为 它 将 一 个 MP_I 解 释 为 一 个 有 符 
号 数 ， 但 MP _tostr 只 接受 无 符号 MP_T 实 例 。 因 而 ，MP_fmt 本 身 会 分 配 
缓冲 区 ， 必 要 时 会 先 在 绥 冲 区 中 预 置 一 个 符号 。 





(functions 


270) += 
void MP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
T X; 
int base, size, SX; 


char *buf; 


assert(app && flags); 


x = va_arg(*app, T); 


assert(x); 

base = va_arg(*app, int); 
assert(base >= 2 && base <= 36); 
sx = sign(x); 


(if x 


< 0, negate x 


278) 


(size - number of characters to represent x in 


base 289) 
buf = ALLOC(size+t1); 
if (sx) { 
buf [0] = '-'; 
MP_tostr(buf + 1, size, base, x); 
} else 
MP_tostr(buf, size + 1, base, x); 
Fmt_putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREE(buf); 


19.4 扩展 阅读 


多 精度 算术 通常 在 编译 器 中 使 用 ， 有 时 它 是 必须 使 用 的 。 例 如 ， 
[Clinger，1990] 指 出 ， 将 浮 点 字面 值 转换 为 对 应 的 IEEE 浮 点 表示 ， 在 某 
些 情况 下 需要 多 精度 算术 才能 实现 最 佳 的 精确 度 。 














[Schneier，1996] 是 一 份 密码 学 方面 的 综述 。 该 书 很 实用 ， 还 对 一 些 
描述 的 算法 包括 了 C 语 言 实 现 。 该 书 还 有 很 广泛 的 参考 数目 ， 这 是 深入 
研究 的 良好 起 点 。 








如 17.2.2 节 所 示 ， 两 个 n 数 位 数 的 乘积 ， 所 花费 的 时 间 与 mn 成 正比 。 
[Press 等 人 ，1992] 的 20.6 节 说 明 ， 可 使 用 快速 伟 里 叶 变 换 来 实现 乘法 ， 
其 花费 的 时 间 与 n len lglgn 成 正比 。 该 书 还 通过 计算 倒数 1y 并 将 其 乘 以 
X， 从 而 实现 了 xy。 这 种 方法 需要 文 持 小 数 部 分 的 多 精度 数 。 








19.5 “习题 





19.1 当 nbits 是 8 的 倍数 时 ，MP 接 口 函数 执行 了 大 量 不 必要 的 工 
作 。 读 者 是 否 可 以 修订 MP 接口 的 实现 ， 使 得 在 nbits mod 8=0 时 ， 能 够 
避免 这 些 不 必要 的 工作 ? 实现 你 的 方案 并 测量 其 好 处 或 成 本 。 


19.2 ”对 于 许多 应 用 程序 来 说 ， 一 旦 选 定 nbits， 就 不 会 变更 。 实 现 
一 个 代码 生成 器 ， 对 给 定 的 nbits 值 ， 生 成 一 个 接口 和 实现 MP_nbits ， 支 
持 位 宽 nbits 的 算术 运算 ， 其 他 方面 与 MP 接口 相同 。 








19.3 ”设计 并 实现 一 个 接口 ， 文 持 定 点 、 多 精度 数 的 算术 运算 ， 这 
种 数 包含 一 个 整数 部 分 和 一 个 小 数 部 分 。 客 户 程 序 应 该 能 指定 这 两 部 分 
中 数位 的 数目 。 务 必 规 定 舍 入 规则 的 细 市 。[Press 等 人 ，1992] 的 20.6 市 
包含 了 可 用 于 本 习题 的 一 些 有 用 算法 。 








19.4 ”设计 并 实现 一 个 接口 ， 文 持 浮 点 数 的 算术 运算 ， 客 户 程 序 可 
以 指定 指数 和 尾数 部 分 的 比特 位 数目 。 在 尝试 本 习题 之 前 ， 请 阅读 
[Goldberg, 1991]. 


19.5 XP 和 MP 接口 中 的 函数 并 不 使 用 const 修 饰 的 参数 ， 原 因 已 经 
在 17.1 节 中 详 述 。 但 是 ， 可 以 用 其 他 方式 定义 XP_T 和 MP_T， 使 之 可 以 
与 const 正 确 地 协作 。 例 如 ， 如 果 以 下 述 方式 定义 T 


typedef unsigned char T[]; 








那么 const TI 的 语义 就 表示 “各 量 无 符号 字符 的 数组 ”， 继 而 可 用 于 函数 参 
数 ， 例 如 MP_add 可 以 声明 如 下 : 


unsigned char *MP_add(T z, const T x, const T y); 








在 MP_add 中 ，x 和 y 的 类 型 是 “ 指 回 常量 无 符号 字符 的 指针 ”， 因 为 形 参 
中 的 数组 类 型 会 “衰变 ”为 对 应 的 指针 类 型 。 当 然 ，const 无 法 阻止 偶发 的 
别名 混用 ， 因 为 ， 同 一 数组 可 能 同时 传递 给 z 和 x。MP_add 的 这 种 声明 
形式 ， 说 明了 将 T 定 义 为 数组 类 型 的 不 利之 处 : TI 无 法 用 作 人 返回 类 型 ， 
客户 程序 无 法 声明 类 型 为 T 的 变量 。 这 种 数组 类 型 只 对 参数 有 用 。 通 过 
将 T 定 义 为 unsigned char 的 typedef， 可 以 避免 该 问题 : 





typedef unsigned char T; 


使 用 T 的 这 种 定义 ，MP_add 可 以 声明 为 下 述 两 种 形式 : 


T *MP_add(T z[], const T x[], const T y[]); 


T *MP_add(T *z, T *x, T *y); 


使 用 T 的 这 两 种 定义 ， 重 新 实现 XP 及 其 客户 程序 、AP、MP、calc 和 
mpcalc。 比 较 修改 后 程序 与 原始 程序 的 易 读 性 。 





[1] 原文 为 比特 位 m， 实 际 上 对 m 位 有 符号 整数 来 说 ， 比 特 位 m- 1 是 


译 者 注 





[2] m 改 为 m - 1。 一 一 译 者 注 


[3] 将 ones (m) 右 移 一 位 ， 使 得 carry 的 初始 值 可 以 包含 比特 位 m - 
1 o — VE. 


[4] 代码 中 原本 把 符号 位 也 忽略 了 ， 已 更 正 。 





译 者 注 


第 20 草 ”线程 











典型 的 C 程 序 是 顺序 的 ， 或 者 说 是 单线 程 程序 。 即 ， 程 序 中 只 有 一 
个 控制 流 。 在 执行 时 ， 程 序 的 指令 计数 器 Cocation counter) 给 出 所 执 
行 的 每 条 指令 的 地 址 。 大 多 数 时 间 ， 指 令 计 数 器 给 出 的 地 址 顺序 前 移 ， 
每 次 移动 一 个 指令 。 偶 而 ， 跳 转 或 调用 指令 会 寻 致 指令 计数 器 变更 为 跳 
转 目 标 地 址 或 所 调用 函数 的 地 址 。 指 令 计数 器 的 值 描绘 出 了 一 条 罕 越 程 
序 的 路 径 ， 该 路 径 描述 了 程序 的 执行 ， 看 起 来 像 是 穿 过 程序 的 一 条 线 。 








一 个 并 发 或 多 线程 程序 有 一 个 以 上 的 线程 ， 而 且 在 大 多 数 情况 下 ， 
这 些 线程 至 少 在 概念 上 是 同时 执行 的 。 这 种 并 发 执行 ， 使 得 编写 多 线程 
应 用 程序 比 编写 单线 程 应 用 程序 要 复杂 得 多 ， 因 为 线程 间 可 能 以 不 确定 
的 方式 彼此 交互 。 本 章 中 的 三 个 接口 导出 了 一 些 函 数 ， 可 用 于 创建 和 管 
理 线程 、 同 步 多 个 协作 线程 的 操作 、 在 线程 间 通 信 。 





线程 对 具有 内 在 并 发 活动 的 应 用 程序 很 有 用 。 疼 形 用 户 界 面 是 个 首 
要 的 例子 ， 键 盘 输 入 、 鼠 标 移动 和 点 击 、 显 示 输 出 ， 所 有 这 些 活动 都 是 
同时 发 生 的 。 在 多 线程 系统 中 ， 可 以 为 每 个 活动 分 别 分 配 一 个 专用 线 
程 ， 无 需 考虑 其 他 活动 。 这 种 方法 有 助 于 简化 用 户 界 面 的 实现 ， 因 为 对 
这 些 线程 中 的 每 一 个 来 说 ， 除 了 少数 必须 与 其 他 线程 通信 /同步 的 场合 
之 外 ， 痢 可 以 像 顺 序 程序 那样 来 设计 和 编写 这 些 线程 。 





在 多 处 理 器 计算 机 上 ， 如 果 应 用 程序 可 以 上 自然 地 分 解 为 相对 独立 的 
子 任 务 ， 那 么 使 用 线程 可 以 提高 性 能 。 每 个 子 任务 在 一 个 单独 的 线程 中 


运行 ， 所 有 子 任务 线程 都 并 发 地 运行 ， 因 而 比 顺 序 执行 各 个 子 任务 要 快 
速 。20.2 节 摘 述 了 一 个 使 用 这 种 方法 的 排序 程序 。 


因为 线程 有 状态 ”， 它 们 还 可 以 帮助 组 织 顺序 程序 的 结构 : 线程 包 
含 足够 的 关联 信息 ， 使 之 可 以 停止 执行 ， 而 后 在 停止 处 重新 恢复 执行 。 
例如 ， 典 型 的 UNIX ” C 语 言 编译 占 由 三 部 分 组 成 : 一 个 单独 的 预 处 理 
器 、 一 个 专属 的 编译 器 和 一 个 汇编 器 。 预 处 理 器 读 取 源 代码 ， 将 头 文件 
包含 进来 ， 并 展开 宏 ， 最 后 输出 结果 源 代码 ， 编 译 器 读 取 并 解析 展开 的 
源 代码 ， 生 成 代码 并 输出 汇编 语言 ， 而 汇编 器 读 取 汇编 语言 并 输出 目标 
码 。 这 些 阶 段 通 常 通过 读 写 临时 文件 来 彼此 通讯 。 利 用 线程 ， 每 个 阶段 
都 可 以 作为 单独 的 应 用 程序 中 的 一 个 独立 的 线程 来 运行 ， 这 样 就 消除 了 
临时 文件 ， 以 及 读 、 写 、 删 除 临 时 文件 的 开销 。 编 译 器 本 映 也 可 能 对 词 
法 分 析 器 和 语法 解析 器 分 别 使 用 单独 的 线程 。20.2 节 以 计算 素数 为 例 ， 
说 明了 在 流水 线 中 使 用 线程 的 这 种 用 法 。 





一 些 系统 并 不 是 为 多 线程 应 用 程序 设计 的 ， 这 限制 了 线程 的 用 处 。 
例如 ， 大 多 数 UNIX 系 统 使 用 的 是 阻 豆 TO 原 语 。 即 当 一 个 线程 发 出 一 个 
读 请 求 时 ， 该 线程 所 属 的 UNIX 进 程 以 及 进程 中 所 有 的 线程 都 会 阻 寨 ， 
以 等 待 该 请 求 完成 。 在 这 些 系 统 上 ， 线 程 无 法 将 计算 与 JO 进 行 重 登 。 
对 于 信号 处 理 ， 也 有 类 似 的 绪论。 大 多 数 UNIX 系 统 将 信号 和 信和 号 处 理 
程序 关联 到 进程 ， 而 不 是 进程 中 的 各 个 线程 。 











线程 系统 支持 用 户 级 线程 或 内 核 级 线程 ， 也 可 能 二 者 均 支 持 。 用 
户 级 线程 是 完全 在 用 户 状态 实现 的 ， 无 需 操 作 系 统 的 帮助 。 用 户 级 线程 
软件 包 ， 通 常 有 一 些 如 上 文 所 述 的 缺点 。 从 正面 来 说 ， 用 户 级 线程 可 以 
非常 高 效 。 下 一 节 描 述 的 Thread 接 口 提供 了 用 户 级 线程 。 





内 核 级 线程 使 用 了 操作 系统 设施 ， 以 提供 诸如 非 阻 赛 TO 和 线程 化 


言 号 处 理 之 类 (per-thread signal handling) 的 特性 。 较 新 的 操作 系统 有 
内 核 级 线程 文 持 ， 可 以 用 于 提供 线程 接口 。 但 这 些 接口 中 的 一 些 操作 需 
要 系统 调用 ， 通 常 比 用 户 级 线程 中 的 类 似 操作 要 花费 更 多 代价 。 


即使 在 提供 内 核 级 线程 的 系统 上 ， 标 准 库 仍然 可 能 不 是 可 重 入 的 或 
线程 安全 的 。 可 重 入 ”的 函数 只 修改 局 部 变量 和 参数 。 改 变 全 局 变量 或 
使 用 静态 变量 来 保存 中 间 结 果 的 函数 是 不 可 重 入 的 。 标 准 C 库 中 一 些 函 
数 的 典型 实现 是 不 可 重 入 的 。 如 果 不 可 重 入 的 函数 同时 被 多 次 调用 思 
， 函 数 可 能 以 不 可 预测 的 方式 修改 这 些 中 间 值 。 在 单线 程 程序 中 ， 多 次 
调用 同时 存在 ， 可 能 是 因为 直接 和 间接 递归 。 在 多 线程 程序 中 ， 出 现 多 
次 调用 ， 是 因为 不 同 线程 可 能 同时 调用 同一 函数 。 两 个 线程 同时 调用 一 
个 不 可 重 入 的 函数 ， 将 修改 同一 存储 区 ， 其 结果 是 未 定义 的 。 

















线程 安全 ”的 函数 使 用 同步 机 制 来 管理 对 共享 数据 的 访问 ， 因 而 有 
可 能 是 可 重 入 的 或 不 可 重 入 的 。 线 程 安全 的 函数 可 能 被 多 个 线程 同时 调 
用 ， 而 无 需 担 忧 同步 问题 。 这 使 得 多 线程 客户 程序 更 容易 使 用 它们 ， 但 
其 缺点 是 ， 即 使 单线 程 客户 程序 也 需要 为 同步 付出 代价 。 


标准 C 语 言 并 不 要 求 库 函 数 是 可 重 入 的 或 线程 安全 的 ， 因 此 程序 员 
必须 作出 最 坏 假定 ， 使 用 同步 原 语 来 确保 在 任 一 时 刻 只 有 一 个 线程 能 访 
问 茶 个 不 可 重 入 的 库 函 数 。 


本 书 中 大 部 分 函数 都 不 是 线程 安全 的 ， 但 是 它们 可 重 入 的 。 少 量 函 
数 是 不 可 重 入 的 ， 如 Text_map， 多 线程 客户 程序 必须 目 行 解决 同步 问 
题 。 例 如 ， 如 果 几 个 线程 共享 一 个 Table_T 实 例 ， 它 们 必须 确保 任 一 时 
刻 只 有 一 个 线程 能 够 对 该 Table_T 实 例 调用 Table 接 口中 的 函数 ， 如 下 文 
所 述 








一 些 线程 接口 是 同时 为 用 户 级 和 内 核 级 线程 设计 的 。OSF (Open 
Software Foundation， 开 放 软 件 基金 会 ) 的 DCE (Distributed Computing 
Environment， 分 布 式 计算 环境 ) ， 在 大 多 数 UNIX 变 体 、Open-VMS、 
OS/2, Windows NT 和 Windows 95 上 ， 都 是 可 用 的 。 通 常 ， 在 宿主 操作 
系统 支持 内 核 级 线程 的 情况 下 ，DCE 线 程 使 用 内 核 级 线程 ， 否 则 ，DCE 
线程 实现 为 用 户 级 线程 。DCE 线 程 接口 包括 50 多 个 函数 ， 比 本 章 中 三 个 
接口 合 起 来 都 大 得 多 ， 但 DCE 接 口 能 完成 的 功能 更 多 。 例 如 ， 其 实现 文 
持 线程 级 信号 ， 并 通过 适当 的 同步 机 制 保护 了 对 标准 库 函 数 的 调用 。 








Sun 公 司 (Sun Microsystems) 的 Solaris 2 操作 系统 提供 了 一 种 二 级 
线程 设施 。 内 核 级 线程 称 作 轻 量 级 线程 Cightweight process) ， 或 
LWP。UNIX 的 每 个 “重量 级 ”进程 都 人 至少 包 含 一 个 LWP，Solaris 通 过 运 
行进 程 中 的 一 个 或 多 个 LWP， 来 运行 一 个 UNIX 进 程 。 对 LWP 的 内 核 文 
持 包 括 非 阻塞 W/O 和 和 LWP 级别 的 信号 。 用 户 级 线程 通过 类 似 Thread 的 一 
个 接口 提供 ， 但 比 Thread 要 大 一 些 ， 其 实现 在 LWP 之 上 运行 用 户 级 线 
程 。 一 个 LWP 可 以 服务 一 个 或 多 个 用 户 级 线程 。Solaris 在 LWP 之 间 复 用 
处 理 器 ， 而 LWP 本 里 则 在 用 户 级 线程 之 间 复 用 。 


POSIX (Portable Operating Systems Interface， 可 移植 操作 系统 接 
O) 线程 接口 简称 pthreads， 它 是 作为 指引 性 的 标准 线程 接口 出 现 的 。 
大 多 数 广 商 现在 都 提供 了 pthreads 实 现 ， 或 许 是 基于 他 们 自己 的 线程 接 
口 。 例 如 ，Sun 公 司 使 用 Solaris 2 的 LWP 来 实现 pthreads。pthreads 的 功能 
是 Thread 和 Sem 接 口 导出 功能 的 一 个 超 集 。 较 大 的 POSIX 线 程 接口 处 理 
了 线程 级 信号 ， 包 括 儿 种 同步 机 制 ， 并 规定 标准 C 库 函数 必须 是 线程 安 
全 的 。 








20.1 接口 





本 章 中 的 三 个 接口 都 比较 小 。 之 所 以 将 其 划分 为 独立 的 接口 ， 是 因 
为 其 中 每 个 接口 部 有 一 个 彼此 相关 但 截然 不 同 的 目的 。 








理论 上 ， 所 有 的 运行 线程 都 是 并 发 执行 的 ， 但 实际 上 ， 线 程 数 目 通 
常 大 于 真实 的 处 理 器 数目 。 因 而 ， 处 理 器 是 根据 某 种 调度 策略 在 运行 线 
程 之 间 复 用 的 。 在 非 抢 占 调度 (nonpreemptive scheduling) 的 情况 下 ， 
运行 线程 可 以 执行 一 个 函数 ， 使 之 变 为 阻塞 状态 ， 或 放 径 当前 占用 的 处 
理 器 。 在 启用 抢占 调度 (preemptive scheduling) 时， 运行 线程 将 隐 式 
放弃 占用 的 处 理 器 。 该 策略 通常 利用 时 钟 中 断 实现 ， 时 钟 中 汤 将 周期 性 
地 中 断 运 行 线程 ， 并 将 其 处 理 器 分 配给 其 他 运行 线程 。 时 间 片 ”是 运行 
线程 在 被 抢占 之 前 所 运行 时 间 的 数量 ， 当 被 抢占 时 ， 上 下 文 切换 “将 挂 
起 当前 线程 并 恢复 另 一 个 《或 许 是 同一 个 ) 运行 线程 。 在 非 抢 占 调度 的 
情况 下 ， 当 运行 线程 阻塞 时 ， 也 会 发 生 上 下 文 切 换 。 在 接口 实现 文 持 抢 
占 的 情况 下 ，Thread 接 口 将 使 用 抢占 调度 机 制 。 











原子 操作 Catomic action) 的 执行 不 会 被 抢占 。 开 始 执行 一 个 原子 
操作 的 线程 ， 在 完成 该 操作 前 ， 不 会 被 妨 一 个 线程 打 断 。 如 采 线 程 调用 
了 一 个 原子 函数 ， 该 调用 的 执行 不 会 被 打 断 。 本 章 中 搬 述 的 大 多 数 函 数 
都 必须 是 原子 的 ， 这 样 才能 使 其 结果 和 作用 有 具有 可 预测 性 。 但 原子 函数 
古 可 以 阻 暑 的 ，Sem 接 口中 的 同步 函数 就 是 这 样 的 例子 。 


前 两 段 的 内 容 表 明 ， 并 发 程序 设计 有 目 身 的 一 些 术 语 ， 而 且 经 党 用 
不 同 术 语 表 示 同 一 概念 。 例 如 ， 线 程 可 能 叫做 轻 量 级 线程 、 任 务 
(task) 、 子 任务 (subtask) 、 或 微 任务 (microtask) ， 同 步 机 制 可 能 





称 为 事件 Cevent) 、 条 件 变 量 (condition variable) 、 同 步 资 源 


(synchronizing resource) 和 消息 (message) 。 


20.1.1 ”线程 


Thread 接 口 导 出 了 一 个 异 第 和 文 持 创造 线程 的 函数 。 


(thread.h 


= 
#ifndef THREAD_INCLUDED 
#define THREAD_INCLUDED 


#include "except.h" 


#define T Thread_T 


typedef struct T *T; 


extern const Except_T Thread_Failed; 


extern const Except_T Thread_Alerted; 


extern int Thread_init (int preempt, ...); 
extern T Thread_new (int apply(void *), 
void *args, int nbytes, ...); 


extern void Thread_exit (int code); 


extern void Thread_alert(T t); 
extern T Thread_self (void); 
extern int Thread_join (T t); 


extern void Thread_pause(void); 


#undef T 


#endif 
对 该 接口 中 所 有 这 些 函 数 的 调用 都 是 原子 的 。 


Thread_init 初 始 化 线程 系统 ， 必 须 在 调用 任何 其 他 函数 之 前 调用 。 
调用 Thread init 多 次 ， 或 在 调用 Thread init 之 前 调用 Thread、Sem 和 Chan 
接口 中 任何 其 他 函数 ， 都 会 造成 已 检查 的 运行 时 错误 。 








如 采 pPreempt 为 0，Thread_init 将 线程 系统 初始 化 为 只 文 持 非 抢占 调 
度 ， 并 返回 1。 如 果 preempt 为 1， 线 程 系统 将 初始 化 为 文 持 抢 占 调度 。 
如 果 系 统 文 持 抢 占 调度 ，Thread_init 将 返回 1。 人 否则 ， 系 统 将 初始 化 为 非 
抢占 调度 ，Thread_init 返 回 0。 


通常 的 客户 程序 在 main 函 数 中 初始 化 线程 系统 。 例 如 ， 对 于 需要 抢 
占 调度 的 客户 程序 来 说 ，main 函 数 通 常 为 如 下 形式 。 


int main(int argc, char *argv[]) { 


int preempt; 


preempt = Thread_init(1, NULL); 


assert(preempt == 1); 


Thread_exit(EXIT_SUCCESS) ， 
return EXIT_SUCCESS; 


Thread_init 还 可 以 接受 与 实现 相关 的 额外 参数 ， 通 第 以 “名 称 一 
值 ” 对 的 形式 指定 。 例 如 ， 对 于 支持 优先 级 的 实现 来 说 ， 


preempt = Thread_init(1, "priorities", 4, NULL); 


ct A 通 第 忽略 未 知 的 可 选 参数 。 
使 用 这 种 方法 的 实现 ， 通 常 要 求 用 NULL 指 针 作为 结束 参数 。 


如 上 述 的 代码 模板 所 示 ， 线 程 必须 通过 调用 Thread_exit 结 束 执 行 。 
整 型 参数 是 一 全 aed 很 像 是 传递 给 标准 库 的 exit 函 数 的 参数 。 如 
果 有 其 他 线程 在 等 得 调用 该 函数 的 线程 结束 ， 那 么 这 些 线程 会 得 到 该 退 
出 代码 ， 下 文 将 解释 这 一 点 。 如 果 系 统 中 只 有 一 个 线程 ， 调 用 
Thread_exit 等 效 于 调用 exit。 


Thread_new 创 建 了 一 个 新 线程 并 返回 其 线程 旬 柄 。”， 这 是 一 个 不 透 
明 指 针 。 线 程 句柄 将 会 传递 给 Thread_join 和 Thread_alert 函 数 ， 
Thread_self 会 返回 线程 句柄 。 新 线程 的 运行 独立 于 创建 它 的 线程 。 在 新 
线程 开始 执行 时 ， 它 会 执行 等 效 于 下 述 形式 的 代码 : 


void *p = ALLOC(nbytes); 
memcpy(p, args, nbytes); 


Thread_exit(apply(p)); 


即 会 针对 args 指 向 的 nbytes 字 节 的 一 个 副本  ， 来 调用 apply， 系 统 假定 
args 指 向 新 线程 的 参数 数据 。args 通 通常 是 指向 一 个 结构 实例 的 指 针 ， 结 


构 的 字段 保存 了 apply 的 参数 ，nbytes 是 该 结构 的 长 度 。 新 线程 开始 执行 
时 ， 有 异常 栈 为 空 : 它 并 不 ”继承 调用 线程 中 通过 TRY-EXCEPT 语 句 建 立 
的 异常 状态 。 有 异常 是 特定 于 线程 的 ， 在 一 个 线程 中 执行 的 TRY-EXCEPT 
语句 无 法 影响 另 一 个 线程 中 的 异种。 





如 果 args 不 是 NULL， 而 nbytes 为 0， 新 线程 将 执行 下 述 代 码 的 等 价 
形式 : 


Thread exit(apply(args)); 


即 会 不 加 修改 地 将 args 传 递 给 apply。 如 果 args 是 NULL， 新 线程 执行 下 
述 代 码 的 等 价 形式 : 


Thread_exit(apply(NULL)); 


如 果 apply 是 NULL， 或 args 不 是 NULL 有 上 且 nbytes 为 负 值 ， 则 造成 已 检查 的 
运行 时 错误 。 如 果 args 是 NULL， 则 忽略 nbytes。 





类 似 于 Thread_init，Thread_new 也 可 以 有 特定 于 实现 的 额外 参数 ， 
通常 以 “名 称 一 值 ” 对 的 形式 指定 。 例 如 : 


Thread_T t; 


t = Thread_new(apply, args, nbytes, "priority", 2, NULL); 


上 述 代 码 创 建 了 一 个 优先 级 为 2 的 新 线程 。 如 本 例 所 示 ， 可 选 参数 〈 的 
列表 ) 应 该 以 NULL 指 针 结 束 。 


线程 的 创建 是 同步 的 : 在 新 线程 已 经 创建 并 接收 其 参数 之 后 ， 
Thread_new 将 返回 ， 但 此 时 新 线程 可 能 并 未 开始 执行 。 如 果 Thread_new 
因为 资源 限制 无 法 创建 新 线程 ， 则 引发 Thread_Failed 异 常 。 例 如 ， 线 程 


系统 的 实现 可 能 会 限制 同时 存在 的 线程 数目 ， 在 超出 该 限制 时 ， 
Thread_new 将 引发 Thread_ Failed 异常 。 


线程 调用 Thread_exit(code) 函 数 后 ， 将 结束 该 线程 的 执行 。 此 后 ， 
《借助 于 Thread_join) 等 待 该 线程 结束 的 线程 将 恢复 执行 ，code 的 值 将 
作为 调用 Thread_join 的 结果 返回 给 这 些 恢 复 执行 的 线程 。 在 最 后 一 个 线 
程 调用 Thread_exit 时 ， 整 个 程序 通过 调用 exit(code) 结 束 。 


Thread_join(t) 导 致 调用 线程 暂停 执行 ， 直 至 线程 t 通 过 调用 
Thread_exit 结 束 。 在 线程 结束 时 ， 调 用 Thread_join 的 线程 将 恢复 执行 ， 
Thread_join 将 返回 线程 传递 给 Thread_exit 的 整 型 参数 。 如 果 t 指 定 了 一 
个 不 存在 的 线程 ，Thread_join 立 即 返回 -1。 作 为 一 个 特例 ， 调 用 
Thread_join(NULL) 将 等 待 所 有 ”线程 结束 ， 包 括 那 些 可 能 由 其 他 线程 创 
建 的 线程 。 在 这 种 情况 下 ，Thread_join 将 返回 8。 如果 用 非 NULL 的 { 指 
定 调用 Thread_ join 的 线程 本 喘 ， 或 有 多 个 线程 指定 的 t 值 为 NULL， 则 造 
成 已 检查 的 运行 时 错误 。Thread_join 可 能 引发 Thread_Alerted 异 常 。 





Thread_self 返 回调 用 线程 的 线程 句柄 。 


Thread_pause 导 致 调 用 线程 放弃 处 理 器 ， 使 得 另 一 个 束 绪 线程 《如 
果 有 的 话 ) 可 以 在 该 处 理 器 上 执行 。Thread_pause 主 要 用 于 非 抢 占 调 
度 ， 对 于 抢占 调度 ， 没 有 必要 调用 Thread_pause。 


线程 有 三 种 状态 : 运行、 阻塞 和 死亡 。 新 线程 开始 时 为 运行 状态 。 
如 果 它 调用 了 Thread_join， 则 变 为 阻塞 状态 ， 等 待 男 一 个 线程 结束 执 
行 。 当 一 个 线程 调用 Thread_exit 时 ， 它 变 为 死亡 状态 。 当 线程 调用 由 
Chan 导 出 的 通讯 函数 或 Sam 导出 的 同步 函数 时 ， 也 可 能 变 为 阻塞 状态 。 
如 有 果 没 有 运行 线程 ， 则 为 已 检查 的 运行 时 错误 。 





Thread_alert(0 将 设置 t 的 “警报 一 待 决 ?标志 。 如 果 {t 阻 塞 ， 
Thread_alert 将 使 {t 变 为 可 运行 ， 并 使 之 清除 其 警报 一 待 决 标志 ， 并 在 下 
一 次 运行 时 引发 Thread_Alerted 异 常 。 如 果 t 已 经 是 运行 状态 ， 
Thread_alert 将 使 { 清 除 其 标志 并 在 下 一 次 调用 Thread_ join 或 可 以 导致 阴 
塞 通信 或 同步 函数 时 引发 Thread_Alerted 异 常 。 如 果 传 递 给 Thread_alert 
的 线程 句柄 为 NULL， 或 指 问 一 个 不 存在 的 线程 ， 则 造成 已 检查 的 运行 
时 错误 。 








无 法 结束 一 个 正在 运行 的 线程 ， 线 程 必须 结束 本 身 ， 或 者 通过 调用 
Thread_exit， 或 者 通过 响应 Thread_Alerted。 如 果 一 个 线程 并 不 捕获 
Thread_Alerted 异 常 ， 整 个 程序 将 由 于 未 捕获 的 异常 错误 而 结束 。 啊 应 
Thread_alert 异 党 最 常见 的 方式 是 结束 线程 ， 这 可 以 通过 下 述 一 般 形式 的 
apply RK ŽE HK o 














int apply(void *p) { 
TRY 


EXCEPT(Thread_Alerted) 
Thread_exit (EXIT_FAILURE); 
END_TRY; 


Thread_exit(EXIT_SUCCESS); 





TRY-EXCEPT 语 句 必须 由 线程 本 身 执 行 。 如 下 的 代码 


Thread_T t; 
TRY 


t = Thread_new(...); 


EXCEPT(Thread_Alerted) 
Thread_exit (EXIT_FAILURE) ; 

END_TRY; 

Thread_exit(EXIT_SUCCESS) ; 


是 不 正确 的 ， 因 为 其 中 的 TRY-EXCEPT 应 用 到 调用 线程 ， 而 非 新 线程 。 


20.1.2 “一般 信号 量 

















一 般 信 号 量 ， 或 计数 信号 量 ， 是 底层 同步 原 语 。 理 论 上 ， 信 和 号 量 是 
一 个 受 保护 的 整数 ， 可 以 原子 化 地 加 1 和 减 1。 可 以 对 一 个 信号 量 s 进 行 
的 两 个 操作 是 wait 和 signal。signal(s) 在 逻辑 上 相当 于 将 s 原 子 化 地 加 1。 
wait(S) 等 待 $ 变 为 正 数 ， 然 后 将 其 原子 化 地 减 1: 











while (s <= 0) 


S=s - 1; 


当然 ， 实 际 的 实现 会 导致 调用 线程 阻塞 ， 并 不 像 上 述 解释 那样 进行 循 
环 。 


Sem 接 口 将 计数 器 封装 在 一 个 结构 中 ， 寻 出 一 个 初始 化 函数 和 两 个 
同步 函数 : 


(sem.h 


) = 
#ifndef SEM INCLUDED 
#define SEM _INCLUDED 


#define T Sem_T 
typedef struct T { 
int count; 

void *queue; 


+ 7; 


(exported macros 


300) 


extern void Sem_init (T *s, int count); 
extern T *Sem_new (int count); 
extern void Sem wait (T *s); 


extern void Sem_signal(T *s); 


#undef T 


#endif 





一 个 信号 量 ， 就 是 指向 一 个 Sem_T 结 构 实 例 的 指针 。 该 接口 揭示 了 
Sem_T 实 例 的 内 部 结构 ， 但 只 有 这 样 ， 才 能 静态 分 配 Sem_T 实 例 ， 或 将 
其 舱 入 到 其 他 结构 中 。 客 户 程 序 必须 将 Sem_T 作 为 不 透明 类 型 处 理 ， 只 


能 通过 该 接口 中 的 函数 存 取 Sem_T 实 例 中 的 字段 ， 直 接 访 问 Sem_T 的 字 
段 ， 属 于 未 检查 的 运行 时 错误 。 向 该 接口 中 任何 函数 传递 的 Sem_T 指 针 
为 NULL， 都 是 已 检查 的 运行 时 错误 。 











Sem_init 的 参数 包括 指向 一 个 Sem_T 实 例 的 指针 ， 和 计数 器 的 初始 
值 ， 该 函数 接 下 来 初始 化 信号 量 的 数据 结构 并 将 其 计数 器 设置 为 指定 的 
初始 值 。 在 初始 化 后 ， 指 向 该 Sem_T 的 指针 即 可 传递 给 两 个 同步 函数 。 
在 同一 信号 量 上 调用 Sem_init 多 次 ， 属 于 未 检查 的 运行 时 错误 。 





Sem_new 等 效 于 下 述 代码 的 原子 形式 : 


Sem_T *s; 
NEW(s); 


Sem_init(s, count); 
Sem_new 可 能 引发 Mem_Failed 异 常 。 


Sem_wait 接 受 一 个 指 同 Sem_T 实 例 的 指针 作为 参数 ， 并 等 竺 其 计数 
器 变 为 正 数 ， 而 后 将 其 计数 器 减 1 并 返回 。 访 操作 是 原子 的 。 如 果 调 用 
线程 的 警报 一 待 决 标志 已 经 设置 ，Sem_wait 将 立即 引发 Thread_Alerted 
异常 ， 而 个 会 将 计数 器 减 1。 如 果 警 报 一 待 决 标志 是 在 线程 阻塞 期 间 设 
置 的 ， 那 么 该 线程 将 停止 等 待 并 引发 Thread_Alerted 异 常 ， 而 不 会 将 计 
数 器 减 1。 在 调用 Thread_init 之 前 调用 Sem_wait， 是 已 检查 的 运行 时 错 
Ro 
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中 的 计数 器 原子 化 地 加 1。 如 果 有 其 他 线程 在 等 得 计数 器 变 为 正 数 ， 而 
Sem_signal 操 作 刚 好 使 计数 器 变 为 正 数 ， 那 么 其 中 某 个 线程 将 完成 对 
Sem_wait 的 调用 。 在 调用 Thread_init 之 前 调用 Sem_wait， 是 已 检查 的 运 





行 时 错误 。 





问 Sem_wait 或 Sem_signal 传 递 未 初始 化 的 信号 量 ， 是 未 检查 的 运行 
时 错误 。 


Sem_wait 和 Sem_signal 操 作 中 隐 含 的 队列 机 制 是 先进 先 出 的 ， 而 且 
它 是 公平 的 。 即 ， 如 果 有 某 个 线程 (阻塞 在 一 个 信号 量 s 上 ， 那 么 与 其 他 
在 t 之 后 调用 Sem_wait(&s) 阻 塞 的 线程 相 比 ， 线 程 t 将 移 于 这 些 线程 恢复 
执行 。 





EASE, RAFE ， 也 是 一 个 一 般 信号 量 ， 但 其 计数 器 为 0 或 
1。 互 斥 量 用 于 实现 互 斥 。 例 如 ， 





Sem_T mutex; 


Sem_init(&mutex, 1); 


Sem_wait (&mutex); 


statements 


Sem_signal(&mutex); 


上 述 代码 创建 并 初始 化 一 个 二 值 信号 量 ， 使 用 它 来 确保 每 次 只 有 一 个 线 
程 能 够 执行 statements ， 这 是 临界 区 (critical region) 的 一 个 例子 。 


这 种 惯用 法 是 如 此 之 常见 ， 以 至 于 Sem 接 口 为 此 导出 了 宏 ， 实 现 了 
下 述 语 法 形式 的 LOCK-END_LOCK 语 人 句 : 


LOCK(mutex 


statements 


END_LOCK 


其 中 mutex 是 一 个 二 值 信号 量 ， 计 数 占 初始 化 为 1 。LOCK 语 句 有 助 于 避 
免 在 临界 区 末尾 忘记 调用 Sem_signal， 这 种 错误 常见 且 易 导致 严重 的 问 
题 ， 也 有 助 于 避免 用 错误 的 信号 量 调用 Sem_signal。 





(exported macros 


300) = 
#define LOCK(mutex) do { Sem_T *_yymutex = &(mutex); \ 
Sem_wait(_yymutex); 


#define END_LOCK Sem_signal(_yymutex); } while (0) 


如 果 statements 可 能 引发 异常 ， 那 么 不 能 使 用 LOCK-END_LOCK， 因 为 
如 果 发 生 异 常 ， 互 斥 量 不 会 被 释放 。 在 这 种 情况 下 ， 正 确 的 惯用 法 是 


TRY 
Sem_wait (&mutex); 


statements 


FINALLY 
Sem_signal(&mutex) ; 


END_TRY; 





FINALLY 子 句 确 保 ， 无 论 是 否 发 生 寞 和 音 ， 互 斥 量 都 会 被 释放 。 

理 的 备 选 方案 是 ， 将 这 种 惯用 法 合并 到 LOCK 和 END_- orn td 
这 样 会 导致 ， 在 每 次 使 用 LOCK-END_LOCK 时 ， 都 会 带 来 TRY- 
FINALLY 语 句 的 开销 。 


互 斥 量 通 常 租 入 到 ADT 中 ， 使 得 能 够 以 线程 安全 的 方式 访问 ADT。 
例如 ， 


typedef struct { 
Sem_T mutex; 
Table_T table; 


} Protected_Table_T; 


该 代码 将 一 个 互 斥 量 与 一 个 表 关 联 起 来 。 下 述 代码 


Protected_Table_T tab; 


tab.table = Table_new(...); 


Sem_init(&tab.mutex, 1); 


创建 了 一 个 受 保护 的 表 ， 而 


LOCK(tab.mutex) 
value = Table_get(tab.table, key); 
END_LOCK; 





可 以 从 原子 化 地 取得 与 key 关 联 的 值 。 请 注意 ，LOCK 宏 的 参数 是 互 斥 量 
本 和 丑 ， 而 非 其 地 址 。 由 于 Table_put 可 能 引发 Mem_Failed 异 常 ， 问 tab 湛 
加 数据 的 操作 ， 应 该 由 如 下 的 代码 进行 : 


TRY 
Sem_wait(&tab .mutex ) ; 
Table_put(tab.table, key, value); 
FINALLY 
Sem_signal(&tab.mutex) ; 


END_TRY; 


20.1.3 ”同步 通信 通道 





Chan 接 口 提 供 了 同步 通信 通道 ， 可 用 于 在 线程 之 间 传 递 数据 。 


(chan.h 


#ifndef CHAN_INCLUDED 
#define CHAN_INCLUDED 


#define T Chan_T 


typedef struct T *T; 


extern T Chan_new (void); 
extern int Chan_send (T c, const void *ptr, int size); 


extern int Chan_receive(T c, void *ptr, int size); 


#undef T 


#endif 


Chan_new 创 建 、 初 始 化 并 返回 一 个 新 的 通道 ， 这 是 一 个 指针 。 
Chan_new 可 能 引发 Mem_Failed 异 常 。 


Chan_send 的 参数 包括 一 个 通道 ， 一 个 指针 指 回 保存 即将 发 送 数据 
的 缓冲 区 ， 以 及 缓冲 区 包含 的 字 节 数 。 调 用 线程 会 阻 宕 直人 至 为 一 个 线 
程 对 同一 通道 调用 Chan_receive， 当 这 样 的 两 个 线程 “会 合 ” 时 ， 数 据 从 
发 送 方 复制 到 接收 方 ， 两 个 调用 分 别 返 回 。Chan_send 返 回 接收 方 接受 
的 字 节 数 。 


Chan_receive 的 参数 包括 一 个 通道 ， 一 个 指针 指 问 用 于 接收 数据 的 
缓冲 区 ， 以 及 该 缓冲 区 能 容纳 的 最 大 字 市 数 。 调 用 者 会 阻塞 ， 和 直人 至 男 一 
个 线程 对 同一 通道 调用 Chan_send， 当 两 个 线程 “会 合 ” 时 ， 数 据 从 发 送 
方 复制 到 接收 方 ， 两 个 调用 分 别 返 回 。 如 果 发 送 方 提 供 的 数据 多 于 size 
字 节 ， 过 多 的 字 节 将 丢弃 。Chan_receive 返 回 接受 的 字 节 数 。 





Chan_send 和 Chan_receive 都 可 以 接受 size 为 0 的 情形 。 同 这 两 个 函数 
传递 的 Chan_T 值 为 NULL、ptr 为 NULL 或 size 值 为 负数 ， 都 是 已 检查 的 
运行 时 错误 。 如 果 调 用 线程 的 警报 一 待 决 标志 已 经 设置 ，Chan_send 和 
Chan_receive 都 会 立即 引发 Thread_Alerted 异 常 。 如 果 警 报 一 待 雇 标志 是 
在 线程 阻塞 期 间 设置 的 ， 线 程 将 停止 等 待 并 引发 Thread_Alerted 寞 党。 

在 这 种 情况 下 ， 数 据 可 能 已 经 传输 ， 也 可 能 尚未 传输 。 





在 调用 Thread_init 之 前 调用 该 接口 中 的 任何 函数 ， 都 是 已 检查 的 运 
行 时 错误 。 


20.2 ”例子 


本 节 中 的 三 个 程序 ， 说 明了 对 线程 和 通道 的 简单 用 法 ， 以 及 使 用 信 
号 量 实现 互 斥 的 用 法 。Chan 接 口 的 实现 在 下 一 节 详 述 ， 这 是 使 用 信和 号 量 
实现 同步 的 一 个 例子 。 


20.2.1 并 发 排序 


在 抢占 调度 的 情况 下 ， 线 程 是 并 发 执行 的 ， 至 少 在 概念 上 是 这 样 。 
一 组 协作 线程 可 以 分 别处 理 同一 问题 的 各 个 部 分 。 在 多 处 理 需 系统 上 ， 
这 种 方法 利用 并 发 性 来 减少 整体 的 执行 时 间 。 当 然 ， 在 单 处 理 器 系统 
上 ， 这 种 程序 实际 上 会 运行 得 慢 一 点 ， 这 是 由 于 在 线程 之 间 切 换 的 开销 
造成 的 。 但 是 ， 这 种 方法 确实 说 明了 Thread 接 口 的 用 法 。 








排序 是 一 个 很 容易 分 解 为 各 个 部 分 解决 的 问题 。sort 生 成 指定 数目 
的 随机 整数 ， 并 发 地 排序 它们 ， 并 检查 确认 结果 已 经 排序 : 


(sort.c 


= 
#include <stdlib.h> 
#include <stdio.h> 


#include <time.h> 


#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 


#include "mem.h" 


(sort types 


303) 


(sort data 


304) 


(sort functions 


303) 


main(int argc, char *argv[]) { 


int i, n = 100000, *x, preempt; 


preempt = Thread_init(1, NULL); 
assert(preempt == 1); 


if (argc >= 2) 


n = atoi(argv[1]); 
x = CALLOC(n, sizeof (int)); 
srand(time(NULL)); 
for (i = 0; i < n; i++) 
x[i] = rand(); 
sort(x, n, argc, argv); 
for (i = 1; i < n; i++) 
if (x[i] < x[i-1]) 
break; 
assert(i == n); 
Thread_exit(EXIT_SUCCESS); 
return EXIT_SUCCESS,; 
} 








time、srand 和 rand 都 是 标准 C 库 函数 。time 返 回 日 历时 间 的 某 种 整数 编 
人 码 ， 而 srand 使 用 该 值 来 设置 随机 数 种 子 ， 以 用 于 生成 一 个 伪 随 机 数 序 
列 。 后 续 对 rand 的 调用 ， 返 回 了 该 序列 中 的 数字 。sort 首 移 用 n 个 随机 数 
填充 x[0..n - 1]. 





sort 函 数 是 快速 排序 的 一 个 实现 。 教 科 书 对 快速 排序 的 实现 ， 首 先 
通过 一 个 “基准 ” 值 将 数组 划分 为 两 个 子 数 组 ， 然 后 递归 调用 自身 来 分 别 
排序 每 个 子 数组 。 当 子 数组 为 空 时 ， 弟 归降 至 最 低 点 。 


void quick(int a[], int lb, int ub) { 
if (lb < ub) { 
int k = partition(a, lb, ub); 
quick(a, 1b, k - 1); 
quick(a, k + 1, ub); 


void sort(int *x, int n, int argc, char *argv[]) { 
quick(x, 0, n - 1); 
} 


partition(a, ij) 任意 地 选择 a[i 作 为 基准 值 。 它 重 排 afi..j]， 使 得 afi.k - 1] 
中 所 有 的 值 都 小 于 或 等 于 基准 v， 而 a[k+1..j] 中 所 有 的 值 都 大 于 v，a[kj 的 
值 为 v。 


(sort functions 


303) = 
int partition(int a[], int i, int j) { 


int v, k, t; 


j++; 
k = i; 
v = afk]; 


while (i < j) { 
i++; while (a[i] < v && i < j) i++; 
j--; while (a[j] > v Joles 
if (i < j) { t = a[i]; a[i] = a[j]; a[j] = t; } 


t = alk]; a[k] = a[lj]; a[j] = t; 
return j; 


partition 中 最 后 的 交换 ， 将 v 值 置 于 a[k] 中 ，partition 返 回 K。 


对 quick 的 递归 调用 可 以 由 独立 的 线程 并 发 地 执行 。 首 先 ，quick 的 
参数 必须 打包 到 一 个 结构 中 ， 这 样 quick 可 以 将 其 传递 给 Thread_new: 


(sort types 


303) = 
struct args { 
int *a; 
int 1b, ub; 
}; 


(sort functions 


303) += 
int quick(void *cl) { 
struct args *p = cl; 


int lb = p->lb, ub = p->ub; 


if (lb < ub) { 
int k = partition(p->a, 1b, ub); 


(quick 


304) 


} 
return EXIT_SUCCESS; 


递归 调用 将 在 独立 的 线程 中 执行 ， 但 仅 当 了 于 数组 中 元 素数 目 足 够 
时 ， 才 值得 这 样 做 。 例 如 ， 对 子 数组 a[llb..k-1] 的 排序 如 下 : 


(quick 


304) = 
p->lb = 1b; 
p->ub = k - 1; 
if (k - lb > cutoff) { 
Thread_T t; 
t = Thread_new(quick, p, sizeof *p, NULL); 
Fmt_print("thread %p sorted %d..%d\n", t, lb, k - 1); 
} else 


quick(p); 








Ht curoffie SBMA, 1024 HEE TCR AF BAM, 
才 会 在 独立 线程 中 排序 该 子 数组 。 类 似 地 ， 对 子 数组 a[k+1..ub] 的 排序 如 
下 : 


(quick 


304) += 
p->lb = k + 1; 
p->ub = ub; 
if (ub - k > cutoff) { 
Thread_T t; 
t = Thread_new(quick, p, sizeof *p, NULL); 
Fmt_print("thread %p sorted %d..%d\n", t, k + 1, ub); 
} else 


quick(p); 


sort 首 先 调 用 quick， 随 着 排序 过 程 的 进展 ，quick 又 衍生 出 许多 线程 ， 
sort 接 下 来 调用 Thread_join 等 待 所 有 这 些 线程 结束 : 


(sort data 


304) = 
int cutoff = 10000; 


(sort functions 


303) += 
void sort(int *x, int n, int argc, char *argv[]) { 


struct args args; 


if (argc >= 3) 

cutoff = atoi(argv[2]); 
args.a = X; 
args.lb = 0; 
args.ub = n - 1; 
quick(&args); 


Thread_join(NULL); 


用 n 和 cutoff 的 默认 值 100 000 和 10 000 来 执行 sort， 会 衍生 出 18 个 线 


% sort 


thread 69f08 sorted 0..51162 
thread 6dfeO sorted 51164. .99999 


thread 72028 sorted 51164. .73326 
thread 76070 sorted 73328. .99999 
thread 6dfeO sorted 51593. .73326 
thread 72028 sorted 73328. .91415 
thread 7a0b8 sorted 51593. .69678 
thread 7e100 sorted 73328. .83741 
thread 82148 sorted 3280. .51162 

thread 69f08 sorted 73328. .83614 
thread 7e100 sorted 51593. .67132 
thread 6dfeO sorted 7931. .51162 

thread 69f08 sorted 14687. .51162 
thread 6dfeO sorted 14687. .37814 
thread 72028 sorted 37816. .51162 
thread 69f08 sorted 15696. .37814 
thread 6dfeO sorted 15696. .26140 
thread 76070 sorted 26142. .37814 


不 同 的 执行 会 排序 不 同 的 值 ， 因 此 ， 每 次 执行 时 创建 线程 的 数目 和 
quick 输 出 的 跟踪 记录 也 有 所 不 同 。 


sort 有 一 个 重要 的 bug: 它 未 能 保护 quick 中 对 Fmt_print 的 调用 。 
Fmt_print 不 保证 是 可 重 入 的 ，C 库 中 许多 例 程 都 是 不 可 重 入 的 。 如 果 线 
程 被 中 断 ， 而 后 又 恢复 执行 ， 则 不 能 保证 printf 或 任何 其 他 库 例 程 能 正 
确 地 工作 。 





20.2.2 ”临界 区 


在 抢占 系统 中 ， 任 何 可 以 由 多 个 线程 访问 的 数据 都 必须 受到 保护 。 
访问 必须 被 限制 在 临界 区 中 进行 ， 每 次 只 有 一 个 线程 允许 进入 临界 区 。 
spin 古 一 个 简单 的 例子 ， 资 明了 访问 共 孚 数据 的 正确 和 错误 方式 。 


(spin.c 


Y= 
#include <stdio.h> 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 


#include "sem.h" 
#define NBUMP 30000 


(spin types 


306) 


(spin functions 


306) 


int n; 
int main(int argc, char *argv[]) { 


int m = 5, preempt; 


preempt = Thread_init(1, NULL); 
assert(preempt == 1); 
if (argc >= 2) 
m = atoi(argv[1]); 
n= 0; 


(increment 


n unsafely 


306) 
Fmt_print("%d == %d\n", n, NBUMP*m); 
n = 0; 


(increment 


n safely 


307) 
Fmt_print("%d == %d\n", n, NBUMP*m) ; 
Thread_exit(EXIT_SUCCESS) ; 


return EXIT_SUCCESS,; 


spin 衍 生 m 个 线程 ， 每 个 线程 都 对 n 加 1 达 NBUMP 次 。 前 m 个 线程 并 不 确 
保 对 n 的 加 1 操作 是 原子 化 的 : 


(increment 


n unsafely 


306) = 


int 1; 
for (i = 0; i < m; i++) 
Thread_new(unsafe, &n, ©, NULL); 


Thread_join(NULL); 


main 启 动 m 个 线程 ， 每 个 线程 都 用 指 问 n 的 双重 指针 调用 unsafe: 


(spin functions 


306) = 
int unsafe(void *cl) { 


int i, *ip = cl; 


for (i = 0; i < NBUMP; i++) 
“ip = “ip + 1; 
return EXIT_SUCCESS,; 


} 


unsafe 是 错误 的 ， 因 为 *ip = *ip + 1 的 执行 可 能 被 中 断 。 如 果 刚 好 在 获取 
*ip 的 值 之 后 被 中 断 ， 而 同时 其 他 线程 对 *ip 执 行 了 加 1 操作 ， 那 么 赋值 给 
*ip 的 值 将 是 不 正确 的 。 


第 二 批 的 m 个 线程 都 调用 下 述 代 码 : 


(spin types 


306) = 
struct args { 


Sem_T *mutex; 


int *ip; 


J3 


(spin functions 


306) += 
int safe(void *cl) { 
struct args *p = cl; 


int 1; 


for (i = 0; i < NBUMP; i++) 
LOCK( *p->mutex ) 
“p->ip = *p->ip + 1; 
END_LOCK; 


return EXIT_SUCCESS; 


safe 确 保 每 次 只 有 一 个 线程 能 执行 临界 区 ， 即 语句 *ip = *ip + 1。main 初 
始 化 了 一 个 二 值 信号 量 ， 所 有 线程 都 使 用 该 信号 量 来 进入 safe 中 的 临界 
IX: 


(increment 


n safely 


307) = 


int 1; 
struct args args; 
Sem_T mutex; 
Sem_init(&mutex, 1); 
args.mutex = &mutex,; 
args.ip = &n; 
for (i = 0; i < m; i++) 
Thread_new(safe, &args, sizeof args, NULL); 


Thread_join(NULL); 


任意 时 刻 都 可 能 发 生 抢 占 ， 因 此 spin 每 次 执行 时 ， 使 用 ansafe 的 线程 都 
可 能 产生 不 同 的 结 


% spin 


87102 == 150000 
150000 == 150000 


% spin 


148864 == 150000 
150000 == 150000 


20.2.3 ”生成 素数 


最 后 一 个 例子 说 明了 一 个 通过 通信 通道 实现 的 流水 线 。sieve N 计 算 
并 输出 小 于 或 等 于 N 的 了 系数。 例如: 


% sieve 


100 
2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 
79 83 89 97 


sieve k Il SAM RFE rim (Sieve of Eratosthenes) 用 于 计算 素 
BX, ALP ARS iP ESSR TRAM RAINE. A 
道 用 于 连接 这 些 线 程 以 形成 流水 线 ， 如 图 20-1 所 示 。 源 线程 (白色 方 
框 〉 生 成 2 以 及 后 续 的 奇数 ， 并 将 其 顺 流水 线 同 下 传输 。source 和 

sink〔 暗 灰色 方 框 ) 之 间 的 过 滤器 《〈 浅 灰色 方 枉 ) 用 于 丢弃 指定 素数 的 
倍数 ， 并 将 其 他 数字 沿 流水 线 回 下 传输 。sink 也 过 小 出 素数 ， 不 过 如 果 


一 个 数 通过 了 sink 的 过 滤器 ， 那 么 它 就 是 素数 。 图 20-1 中 的 每 个 方 框 都 
征 一 个 线程 ， 每 个 方 框 中 的 数字 都 是 与 该 线程 关联 的 素数 ， 方 框 之 间 形 
成 流水 线 的 线 则 是 通道 。 





有 n 个 素数 关联 到 sink 和 每 个 filter。 当 sink 累 积 了 n 个 素数 时 (图 20-1 
中 n 为 5)， 它 会 衔 生 出 自 映 的 一 个 副本 ,将 自 喘 转化 为 一 个 filter。 图 
20-2 说 明了 sieve 如 何 扩 展 ， 以 计算 出 100 以 内 的 素数 。 


source filter filter sink 





图 20-1 素数 得 


在 sieve 初 始 化 线程 系统 之 后 ， 它 为 Source 和 sink 创 建 线程 ， 用 一 个 
新 的 通道 连接 它们 ， 并 退出 : 


(sieve.c 


Y= 
#include <stdio.h> 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 


#include "thread.h" 


#include "chan.h" 


struct args { 
Chan_T cC; 
int n, last; 


}; 


(sieve functions 


308) 


int main(int argc, char *argv[]) { 


struct args args; 


Thread_init(1, NULL); 

args.c = Chan_new(); 

Thread_new(source, &args, sizeof args, NULL); 
args.n = argc > 2 ? atoi(argv[2]) : 5; 
args.last = argc > 1 ? atoi(argv[1]) : 1000; 
Thread_new(sink, &args, sizeof args, NULL); 
Thread_exit(EXIT_SUCCESS) ; 


return EXIT_SUCCESS; 


source 问 其 “输出 ”通道 输出 整数 ， 通 道 是 通过 args 结 构 的 c 字 段 传 递 给 


source 的 ， 这 也 是 source 所 需 的 唯一 字段 : 


(sieve functions 


308) = 
int source(void *cl) { 
struct args *p = cl; 


int 1 = 2; 


if (Chan_send(p->c, &i, sizeof 工 ) ) 
for (i = 3; Chan_send(p->c, &i, sizeof i); ) 
i += 2; 


return EXIT_SUCCESS; 


source sink 





图 20-2 ”用 以 计算 100 以 内 的 素数 的 sieve 的 变化 


只 要 有 接收 方 接受 ，source 就 会 发 送 2 和 后 续 的 奇数 。 在 sink 输 出 所 
有 素数 后 ， 则 向 Chan_Receive 传 递 0 作 为 缓冲 区 长 度 参 数 ， 这 会 通知 其 
上 游 的 过 滤器 工作 已 经 完成 ，sink 就 此 结束 。 每 个 filter 都 具有 类 似 的 行 
为 ， 直 至 source 确 认 其 接收 方 读 取 到 零 字 节 为 止 ， 此 时 source 线 程 将 结 
束 。 





filter 从 其 输入 通道 读 取 整 数 ， 并 将 可 能 的 素数 写 到 输出 通道 ， 直 至 
接收 该 输出 的 线程 不 再 接收 为 止 。 


(sieve functions 


308) += 
void filter(int primes[], Chan_T input, Chan_T output) { 


int j, xX; 


for (;;) { 


Chan_receive(input, &x, sizeof x); 


(x is a multiple of 


primes[0...] 310) 
if (primes[j] == 0) 
if (Chan_send(output, &x, sizeof x) == 0) 


break; 


} 


Chan_receive(input, &x, 0); 


primes[0..n-1] 包 含 了 与 一 个 filter 相 关联 的 素数 。 该 数组 以 整数 0 结尾 ， 
此 ， 进 行 搜索 的 循环 体会 遍历 primes， 直 至 判断 出 x 不 是 素数 ， 或 者 遇 


到 数组 的 结束 符 : 


(x is a multiple of 


primes[0...] 310) = 
for (j = 0; primes[j] != © && x%primes[j] != 0; j++) 


了 





如 上 述 代 码 所 示 ， 当 遇 到 表示 数组 结束 的 0 时 ， 搜 索 失 败 。 在 这 种 情况 
Po xT ” 古 素 数 ， 因 此 需要 将 其 通过 输出 通道 及 送 给 万 一 个 filter 或 


sink. 


所 有 的 操作 都 在 sink 中 ，args 的 c 字 段 包含 了 sink 的 输入 通道 ，n 字 段 
给 出 了 各 个 filter 中 素数 的 数目 ，last 字 段 包 含 JN， 即 所 需 判断 素数 的 范 
围 。sink 初 始 化 primes 数 组 并 监听 其 输入 : 


(sieve functions 


308) += 

int sink(void *cl) { 
struct args *p = cl; 
Chan_T input = p->c; 


int i= 0, j, x, primes[256]; 


primes[0] = 0; 
for (;;) { 


Chan_receive(input, &x, sizeof x); 


(x is a multiple of 


primes[0...] 310) 
if (primes[j] == 0) { 


(x is prime 


310) 


Fmt_print("\n"); 
Chan_receive(input, &x, 0); 


return EXIT_SUCCESS; 


如 果 x 不 是 primes 中 某 个 非 零 值 的 倍数 ， 


将 其 添加 到 primes。 


(x is prime 


310) = 


if (x > p->last) 


那么 x 是 素数 ，sink 将 输出 它 并 


break; 
Fmt_print(" %d", x); 
primes[it++] = x; 
primes[i] = 0; 
if (i == p->n) 


(spawn a new 


sink and call 


filter 311) 
当 x 大 于 p->last 时 ， 所 有 要 求 的 素数 都 已 经 输出 ，sink 可 以 结束 。 在 此 之 


前 ， 它 还 要 等 待 从 输入 通道 再 读 取 一 个 整数 ， 但 只 读 取 0 个 字 节 (缓冲 
区 长 度 为 0) ， 这 将 通知 上 游 的 线程 计算 已 经 完成 。 








在 sink 累 积 了 n 个 素数 之 后 ， 它 将 克隆 自身 并 变 为 一 个 filter， 这 需要 
一 个 新 的 通道 


(spawn a new 


sink and call 


filter 311) = 
{ 
p->c = Chan_new(); 
Thread_new(sink, p, sizeof *p, NULL); 
filter(primes, input, p->c); 
return EXIT_SUCCESS; 
} 


新 的 通道 变 为 殉 隆 线程 的 输入 通道 ， 以 及 新 filter 的 输出 通道 。 原 本 sink 
的 输入 通道 ， 即 为 新 的 filter 的 输入 通道 。 当 fter 返 回 时 ， 退出 。 


在 sieve 中 ， 所 有 线程 之 间 的 切换 都 发 生 在 Chan_send 和 Chan_receive 
中 ， 人 至 少 总 有 一 个 线程 是 处 于 就 绪 状 态 的 (可 运行 )。 因 而 ，sieve 可 以 
在 抢占 调度 和 非 抢占 调度 下 工作 ， age) eT 示范 了 如 何 使 
用 线程 来 规划 应 用 程序 的 结构 。 非 抢占 线程 通常 称 作协 程 〈coroutine， 
或 协同 例 程 ) 。 


20.3 ”实现 


Chan 的 实现 可 以 完全 建立 在 Sem 的 实现 之 上 ， 因 此 Chan 是 与 机 器 无 
关 的 。Sem 也 是 与 机 器 无 关 的 ， 但 它 依 赖 于 Thread 接 口 实现 的 内 部 结 
构 ， 因 此 Thread 接 口 的 实现 也 同时 实现 了 Sem 接 口 。 单 处 理 器 的 Thread 
实现 ， 可 以 在 很 大 程度 上 独立 于 宿主 机 及 其 操作 系统 。 如 下 文 详 述 ， 只 
有 上 下 文 切换 和 抢占 这 两 部 分 的 代码 中 ， 才 能 对 机 器 和 操作 系统 依赖 。 


20.3.1 同步 通信 通道 





Chan_T 古 一 个 指 癌 结构 实例 的 指针 ， 结 构 中 包含 三 个 信号 量 、 一 
个 指向 所 需 传递 消 有 乱 的 指针 和 一 个 字 节 计数 : 


(chan.c 


= 
#include <string.h> 
#include "assert.h" 
#include "mem.h" 
#include "chan.h" 


#include "sem.h" 


#define T Chan_T 


struct T { 

const void *ptr; 

int *size; 

Sem_T send, recv, sync; 
}; 


‘chan functions 


312) 


A n 


在 创建 一 个 新 通道 时 ，ptr 和 size 字 段 是 未 定义 的 ， 信 号 量 send、recv 和 
sync 的 计数 器 分 别 初 始 化 为 1、0、00: 


‘chan functions 


312) = 
T Chan_new(void) { 


Toc: 


NEW(c); 

Sem_init(&c->send, 1); 
Sem_init(&c->recv, 0); 
Sem_init(&c->sync, 0); 


return c; 


} 











send 和 recv 信 号 量 控 制 对 ptr 和 size 的 访问 ，sync 信 号 量 确保 消息 传输 是 同 
步 的 〈《Chan 接 口 的 规定 ) 。 线 程 通 过 填充 ptr 和 size 字 段 来 发 送 消息 ， 但 
仪 当 安 全 时 才能 这 样 做 。send 的 计数 器 为 1 时 ， 发 送 方才 能 设置 ptr 和 size 
字段 ，send 的 计数 器 为 0 时 则 不 行 〈 例 如 ， 在 接收 方 获取 消息 前 ) . % 
似 地 ，recv 的 计数 器 为 1 时 ，ptr 和 size 字 段 所 包含 的 指针 是 有 效 的 ， 指 向 
一 条 消息 及 其 长 度 ， 如 果 recv 的 计数 器 为 0， 则 不 然 ( 例 如 ， 在 发 送 方 

设置 ptr 和 size 字 段 之 前 ) 。send 和 recv 不 断 “ 震 荡 ”: 当 recv 计 数 器 为 0 
时 ，send 的 计数 器 为 1， 反 之 亦 然 。 当 接收 方 已 经 成 功 地 将 一 条 消息 复 
制 到 私有 的 缓冲 区 中 时 ，sync 的 计数 器 为 1。 














Chan_send 发 送 一 条 消息 ， e ， 而 后 填充 pt 
和 size 字 段 ， 接 下 来 通知 recv， 然 后 在 sync 上 等 


(chan functions 


312) += 
int Chan_send(Chan_T c, const void *ptr, int size) { 
assert(c); 
assert(ptr); 
assert(size >= 0); 
Sem_wait(&c->send); 
c->ptr = ptr, 
c->size = &size; 


Sem_signal(&c->recv); 


Sem_wait(&c->sync); 


return size; 





c->sizei GBS, FRR Te, PMT AT WEA KL, 
从 而 通知 发 送 方 传输 的 字 节 数 。Chan_receive 也 同样 执行 三 个 步 又， 与 
Chan_send 的 步骤 是 互补 的 。Chan_receive 接 收 一 条 信息 ， 该 函数 首先 在 
recv 上 等 待 ， 而 后 将 消息 复制 到 其 参数 指定 的 绥 冲 区 中 并 修改 字 节 计 
数 ， 接 下 来 通知 sync 和 send: 





‘chan functions 


312) += 
int Chan_receive(Chan_T c, void *ptr, int size) { 


int n; 


assert(c); 
assert(ptr); 
assert(size >= 0); 
Sem_wait(&c->recv); 
n = *c->size; 
if (size < n) 

n = size; 
*c->size = n; 


if (n > 0) 


memcpy(ptr, c->ptr, n); 
Sem_signal(&c->sync); 
Sem_signal(&c->send); 


return n; 


n 是 实际 上 接收 的 字 节 数 ， 该 值 可 能 为 0。 上 述 代 码 处 理 了 所 有 三 种 情 
形 : 发 送 方 的 size 大 于 接收 方 的 size， 两 个 size 相 等， 接收 方 的 size 大 于 
发 送 方 的 Size。 


20.3.2 ”线程 


Thread 接 口 的 实现 thread.c， 其 中 实现 了 Thread 和 Sem 接 口 : 


(thread.c 


六 :三 
#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include </usr/include/signal.h> 
#include <sys/time.h> 
#include "assert.h" 
#include "mem.h" 


#include "thread.h" 


#include "sem.h" 


void _MONITOR(void) {} 


extern void _ENDMONITOR(void); 


#define T Thread_T 


(macros 


315) 


(types 


314) 
(data 


314) 


(prototypes 


317) 


(static functions 


315) 


(thread functions 


316) 


#undef T 


#define T Sem_T 


(sem functions 


330) 


#undef T 


其 中 的 空 函 数 _MONITOR 和 外 部 函数 _ENDMONITOR， 将 只 使 用 其 地 
址 。 如 下 所 述 ， 这 些 地 址 用 于 包围 临界 区 ， 其 中 的 线程 代码 不 能 被 中 
断 。 其 中 少量 代码 是 用 汇编 语言 编写 的 ，_ENDMONITOR 定 义 在 汇编 
语言 文件 的 末尾 ， 这 样 临界 区 就 包括 了 这 些 汇编 代码 。 其 名 称 以 下 划 线 
开头 ， 这 个 惯例 用 于 表示 由 有 具体 实现 定义 的 汇编 语言 名 称 。 





线程 处 理 是 一 个 不 透明 指针 ， 指 向 Thread_T 结 构 ， 其 中 承载 了 确定 
线程 状态 需要 的 所 有 信息 。 该 结构 通常 称 之 为 线程 控制 块 (thread 








control block) 。 











(types 

314) = 

struct T { 
unsigned long *sp; /* 必须 定义 在 结构 的 开头 */ 
(fields 

314) 

J}; 


起 始 的 字段 包含 了 与 机 器 和 操作 系统 相关 的 值 。 这 些 字段 出 现在 
Thread_I 结 构 的 开头 ， 因 为 它们 是 由 汇编 语言 代码 访问 的 。 将 这 些 字 段 
放置 在 结构 的 开头 ， 则 较为 容易 访问 ， 而 且 添 加 新 字段 时 无 需 修 改 现存 
的 汇编 语言 代码 。 大 多 数 机 器 上 ， 只 需要 一 个 这 样 的 字段 gp， 其 中 包含 
了 线程 的 栈 指针 。 








大 多 数 线 程 操作 ， 痢 围绕 着 将 线程 放 入 队列 和 从 队列 中 移 除 来 进 
行 。Thread 和 和 Sem 接口 的 设计 ， 用 于 维护 一 个 简单 的 不 变量 : 线程 或 者 
不 在 任何 队列 上 ， 或 者 仅 在 一 个 队列 上 。 这 种 设计 能 够 避免 为 队列 项 分 
配 空间 。 队 列 的 表示 无 需 其 他 方式 〈 例 如，Seq_T) ， 只 需要 使 用 
Thread_T 结 构 的 循环 链表 即 可 。 一 个 例子 是 整 绪 队列 ， 其 中 包含 了 未 分 
配 处 理 圳 的 运行 线程 : 


(data 


314) = 


static T ready = NULL; 


(fields 


314) = 
T link; 


T *inqueue; 


图 20-3 给 出 了 束 绪 队列 上 的 三 个 线程 ， 顺 序 为 A、B、C。ready 指 问 队 列 
中 最 后 ”一 个 线程 C， 该 队列 通过 link 字 段 连接 。 每 个 Thread_T 结 构 的 
inqueue 字 段 指 癌 表示 队列 的 变量 ， 这 里 是 ready， 访 字段 用 于 将 线程 从 
队列 中 删除 。 当 队列 变量 为 NULL 时 ， 队 列 为 空 ， 如 ready 的 初始 值 所 
示 ， 可 以 通过 下 述 宏 来 检测 : 








图 20-3 就绪 队列 中 的 三 个 线程 


(macros 


315) = 


#define isempty(q 


) ((q 


) == NULL) 


如 果 线 程 t 在 某 个 队列 上 ， 那 么 t->link 和 t->inqueue 字 上 段 不 是 NULL， 


个 则 两 个 字段 都 是 NULL。 下 述 队 列 函 数 使 用 与 ink 和 inqueue 字 段 相 关 
的 断言 ， 来 确保 上 文 提 到 的 不 变量 为 真 。 例 如 ，put 将 一 个 线程 添加 到 
一 个 空 或 非 空 队列 : 


(static functions 


315) = 
static void put(T t, T *q) { 
assert(t); 
assert(t->inqueue == NULL && t->link == NULL); 
if (*q) { 
t->link = (*q)->link; 
(*q)->link = t; 
} else 
t->link = t; 
*q = t; 
t->inqueue = q; 


} 


这 样 ，put(t，& ready KtR IE RANA. pth ARENE E He 
址 ， 因 而 可 以 修改 该 变量 : 在 调用 put(t， & pm, q&Ft, mit- 
>inqueue 等 于 &q。 





get 从 一 个 给 定 队 列 中 移 除 第 一 个 元 素 : 


(static functions 


315) += 
static T get(T *q) { 


Te At 


assert(!isempty(*q)); 
t = (*q)->link; 
if (t == *q) 

*q = NULL; 
else 

(*q)->link = t->link; 
assert(t->inqueue == q); 
t->link = NULL; 
t->inqueue = NULL; 


return t; 





上 述 代码 使 用 inqgueue 字 上 段 来 确保 线程 确实 在 gq 中 ， 最 后 它 将 link 和 
inqueue 字 上 段 清 零 ， 以 标记 该 线程 不 再 处 于 任何 队列 中 。 





delete 是 第 三 个 也 是 最 后 一 个 队列 函数 ， 该 函数 将 一 个 线程 从 其 所 
在 的 队列 移 除 : 


(static functions 


315) += 
static void delete(T t, T *q) { 


T p; 


assert(t->link && t->inqueue == q); 
assert(!isempty(*q)); 
for (p = *q; p->link != t; p = p->link) 
if (p == t) 

*q = NULL; 
else { 

p->link = t->link; 

if (*q == t) 

*q =p; 

} 
t->link = NULL; 


t->inqueue = NULL; 


第 一 个 断言 确保 t 在 q 中 ， 第 二 个 断言 确保 该 队列 是 非 空 的 〈 这 是 必须 
的 ， 因 为 t 在 q 中 ) 。if 语 句 处 理 了 q 中 只 有 t 一 个 线程 的 情形 。 








Thread_init 创 建 了 “ 根 ”* 线 程 ( 根 线程 的 Thread_T 结 构 是 静态 分 配 
的 ) : 


(thread functions 


316) = 


int Thread_init(int preempt, ...) { 
assert(preempt == || preempt == 1); 
assert(current == NULL); 


root.handle = &root; 
current = &root; 
nthreads = 1; 

if (preempt) { 


(initialize preemptive scheduling 


328) 
3 


return 1; 


(data 


314) += 
static T current; 
static int nthreads; 


static struct Thread_T root; 


(fields 


314) += 


T handle; 


current 是 当前 持 有 处 理 器 的 线程 ，nthreads 是 现存 线程 的 数目 。 
Thread_new 将 nthreads 加 1， 而 Thread_exit 将 其 减 1。handle 字 段 只 是 指 辣 
线程 句柄 ， 和 它 有 助 于 检 碍 句柄 的 有 效 性 : 仅 当 t 等 于 t+>handle 时 ，t 标 识 
一 个 现存 的 线程 。 


如 果 current 为 NULL， 尚 未 调用 Thread_init， 因 此 如 上 述 代 码 所 示 ， 
对 current 为 NULL 的 检测 ， 实 现 了 接口 规定 的 已 检查 的 运行 时 错误 : 
Thread_init 必 须 调 用 且 仅 调用 一 次 。 在 其 他 Thread 和 Sem 函 数 中 ， 对 
cUrrent 不 是 NULEL 的 检测 ， 则 实现 了 接口 规定 的 另 一 个 已 检查 的 运行 时 
错误 : Thread_init 必 须 在 任何 其 他 Thread、Sem 或 Chan 函 数 之 前 调用 。 
例如 Thread_self， 该 函数 只 是 返回 current: 











(thread functions 


316) += 
T Thread_self(void) { 
assert(current); 


return current; 


线程 之 间 的 切换 需要 一 些 机 器 相关 代码 ， 因 为 (举例 来 说 〉 每 个 线 
程 都 有 目 映 的 栈 和 异常 状态 。 上 下 文 切换 原 语 有 很 多 可 能 的 设计 方案 ， 
所 有 这 些 都 相对 简单 ， 因 为 它们 是 全 部 或 部 分 用 汇编 语言 编写 的 。 
Thread 的 实现 使 用 了 单一 、 特 定 于 实现 的 原 语 。 





(prototypes 


317) = 


extern void _swtch(T from, T to); 


该 函数 将 上 下 文 从 from 线 程 切换 到 to 线程 ， 其 中 from 和 to 是 指 辐 

Thread_ TI 结构 的 指针 。_swtch 类 似 于 setjmp 和 longjmp: 在 线程 A 调用 
_swtch 时 ， 控 制 转移 到 线程 B。 在 B 调 用 _swtch 以 恢复 线程 A 的 执行 时 ， 
A 对 _swtch 的 调用 返回 。 因 而 ，A 和 B 可 以 将 _swtch 当 做 通常 的 函数 调用 
处 理 。 这 种 简单 的 设计 ， 也 利用 了 机 器 的 调用 序列 ， 这 有 助 于 在 切换 到 
线程 B 时 保存 线程 A 的 状态 。 唯 一 的 不 利之 处 是 ， 新 线程 创建 时 ， 其 状 
态 必 须 貌 似 在 此 前 调用 过 _swtch， 因 为 其 第 一 次 运行 将 是 从 _swtch 返 回 


_swtch 仅 在 一 处 调用 ， 即 静态 函数 run: 


(static functions 


315) += 
static void run(void) { 


T t = current; 


current = get(&ready); 


t->estack = Except_stack; 


Except_stack = current->estack; 


_swtch(t, current); 


(fields 


314) += 


Except_Frame *estack; 


run HRAT RE TRA USL BARE. “EE ready k iB HY 
线程 从 队列 移 除 ， 设 置 current， 并 切换 到 这 个 新 线程 。estack 字 段 包含 





的 指针 指 癌 线程 异 稼 栈 顶部 的 异 冀 帧 ，run 负 责 更 新 Except 的 全 局 


Except_stack 〈 人 参见 4.2 节 ) 。 


所 有 可 能 导致 上 下 文 切换 的 Thread 和 Sem 函 数 都 会 调用 run， 它 们 在 
调用 run 之 前 会 将 当前 线程 置 于 ready 或 另 一 个 适当 的 队列 上 。 


Thread_pause 是 最 简单 的 例子 : 


runo 


它 将 current 置 于 ready 队 列 上 ， 并 调用 


(thread functions 


316) += 

void Thread_pause(void) { 
assert(current); 
put(current, &ready); 
run(); 


} 


如 果 仅 有 一 个 运行 线程 ，Thread_pause 将 其 置 于 ready 队 列 上 ， 而 run 则 又 
从 就 绪 队 列 移 除 该 线程 ， 并 切换 到 该 线程 。 因 而 ，_swtch(t，t) 必 须 能 够 
正常 工作 。 图 20-4 描 述 了 执行 下 列 调用 而 导致 在 线程 A、B 和 C 之 间 发 生 
的 上 下 文 切 换 ， 假 定 最 初 A 持 有 处 理 器 ，ready 队 列 包 含 B 和 C (顺序 如 
图 中 方 括号 所 示 ) 。 


A B Ç 


Thread_pause() Thread_pause() Thread_pause() 
Thread_join(c) Thread_exit (0) Thread_exit(0) 
Thread_exit(0) 


120-4 +P ae ELA SEER MARRA PER Fh BL as E, TM KP 
的 虚线 箭头 则 表示 上 下 文 切换 ， 就 绪 队 列 如 图 中 实 线 箭头 劳 边 的 方 括号 
所 示 。 图 中 每 个 上 下 文 切换 下 ， 都 给 出 了 Thread 函 数 及 其 导致 的 _swtch 
调用 。 


在 A 调用 Thread_pause 时 ， 它 被 添加 到 ready，B 被 从 ready 队 列 移 除 
并 获得 处 理 器 。 在 B 运 行 时 ，ready 包 含 C A。 在 B 调 用 Thread_pause 时 ， 


C 被 从 ready 删 除 并 获得 处 理 器 。 


时 间 A B C 
[e C] 
Thread_pause() > 
_swtch(A,B) |e A] 
Thread_pause() 
_swtch(B,C) |e B] 
` Thread_pause() 
fe 63 -swtch(C,A) 
Thread_join(C) x 
_swtch(A, B) | [C] 
Thread_exit(0) [] 
_swtch(B,C) 
[] Thread_exit(0) 
_swtch(C, A) 
Thread_exit(0) 
exit (0) 


图 20-4 在 三 个 线程 之 间 的 上 下 文 转 接 


此 时 ready 包 含 A ” B。 在 Ci 调用 Thread_pause 之 后 ，ready 再 次 包含 B 
C， 此 时 A 恢复 运行 状态 。 在 A 调用 Thread_join(C) 时 ， 它 阻塞 直至 线程 C 
结束 ， 因 此 处 理 器 被 分 配给 线程 B《〈 此 时 处 于 ready 的 头 部 ) 。 


到 这 里 ，ready 仅 包含 C， 因 为 A 处 于 与 C 相 关 的 一 个 队列 中 。 在 B 调 
用 Thread_exit 时 ，run 切 换 到 线程 C， 而 ready 变 为 空 队 列 。 线 程 C 通 过 调 
用 Thread_exit 结 束 ， 这 导致 线程 A 被 重新 置 于 ready 队 列 。 因 而 ， 在 
Thread_exit 调 用 run 时 ， 线 程 A 得 到 处 理 器 。 但 A 对 Thread_exit 的 调用 并 
不 导致 上 下 文 切换 : 此 时 A 是 系统 中 唯一 的 线程 ， 因 此 Thread_exit 调 用 
J exit. 


在 ready 队 列 为 空 ， 而 调用 了 run 时 ， 将 发 生死 锁 , BU, 没有 可 运行 
线程 。 死 锁 是 已 检查 的 运行 时 错误 ， 当 对 空 的 就 绪 队 列 调用 get 时 ， 可 
以 检测 到 死 锁 。 





Thread_join 和 Thread_exit 说 明了 涉及 “汇合 队列 ”(join queue) Flat 
绪 队 列 的 队列 操作 。 有 两 种 风格 的 Thread_join: Thread_join(t) 等 待 线程 t 
结束 ， 并 返回 t 的 退出 代码 ， 即 t 传 递 给 Thread_exit 的 值 ，t 不 能 是 调用 
Thread_join 的 线程 。Thread_join(NULL) 等 待 所 有 线程 结束 ， 并 返回 0， 
程序 中 只 有 一 个 线程 能 调用 Thread_join(NULL)。 


(thread functions 


316) += 

int Thread_join(T t) { 
assert(current && t != current); 
testalert(); 
if (t) { 


(wait for thread 


t to terminate 


319) 
} else { 


(wait for all threads to terminate 


320) 


return 0; 


如 下 所 述 ， 如 果 调 用 线程 已 经 处 于 “警报 一 待 决 ”状态 ， 则 testalert 将 引发 
Thread_Alerted 异 常 。 当 t 不 是 NULL 日 指 癌 某 个 现存 的 线程 时 ， 调 用 线 
程 将 自身 置 于 t 的 汇合 队列 上 ， 以 等 竺 结束 ， 否 则 ，Thread_join 羡 即 返 
回 -1。 





(wait for thread 


t to terminate 


319) = 
if (t->handle == t) { 


put(current, &t->join); 


run(); 

testalert(); 

return current->code; 
} else 


return -1; 


(fields 


314) += 
int code; 


T join; 


仅 当 t 等 于 t->handle 时 ，t 才 是 一 个 现存 的 线程 。 如 下 所 示 ， 当 一 个 线程 
结束 时 ，Thread_exit 将 handle 字 段 清 零 。 当 t 结 束 时 ，Thread_exit 将 其 参 
数 保存 到 t->join 队 列 中 各 个 Thread_T 的 code 字 段 中 ， 并 随 之 将 这 些 线 程 
FE ERA FI 





因而 ， 当 这 些 线程 再 次 执行 时 ， 很 容易 得 到 退出 代码 ， 在 各 个 恢复 
执行 的 线程 中 ，Thread_ join 会 返回 该 值 。 


当 t 为 NULL 时 ， 调 用 线程 被 置 于 join0 队 列 ， 其 中 只 能 包含 一 个 线 
程 ， 来 等 等 所 有 其 他 线程 结束 : 


(wait for all threads to terminate 


320) = 

assert(isempty(join0)); 

if (nthreads > 1) { 
put(current, &joinO); 
run(); 


testalert(); 


(data 


314) += 


static T joino; 


调用 线程 下 一 次 运行 时 ， 它 将 成 为 程序 中 唯一 的 线程 。 该 代码 也 处 理 了 
调用 线程 已 经 是 系统 中 唯一 线程 的 情形 ， 即 nthreads 等 于 1 时 。 











Thread_exit 有 很 多 工作 需要 完成 : 它 必 须 释放 与 调用 线程 相关 的 资 
源 ， 使 等 待 调用 线程 结束 的 各 个 线程 回复 执行 ， 并 使 之 获得 调用 线程 的 
退出 代码 ， 并 检查 调用 线程 是 否 是 系统 中 最 后 第 二 个 或 最 后 一 个 线程 。 


(thread functions 


316) += 


void Thread_exit(int code) { 

assert(current); 

release(); 

if (current != &root) { 
current->next = freelist; 
freelist = current; 

} 

current->handle = NULL; 


(resume threads waiting for 


current's termination 


320) 


(run another thread or exit 


321) 


(fields 


314) += 
T next; 


(data 


314) += 


static T freelist; 


对 release 的 调用 ， 以 及 将 current 添 加 到 freelist 的 代码 ， 这 两 者 协作 完成 
了 对 调用 线程 资源 的 释放 ， 细 市 在 下 文 详 述 。 如 果 调 用 线程 是 根 线程 ， 
Thread_T 实 例 不 能 释放 ， 因 为 其 是 静态 分 配 的 。 

将 handle 字 段 清 零 后 ， 即 把 该 线程 标记 为 不 存在 ， 等 待 其 结束 的 各 
个 线程 现在 可 以 恢复 执行 : 


(resume threads waiting for 


current's termination 


320) = 
while (!isempty(current->join)) { 


T t = get(&current->join); 


t->code = code; 
put(t, &ready); 
} 


调用 线程 的 退出 代码 将 复制 到 各 个 等 待 线 程 的 Thread_T 结 构 中 的 code 字 
段 ， 因 为 接 下 来 将 释放 current 线 程 。 


如 果 只 有 两 个 线程 存在 而 其 中 之 一 处 于 join0 队 列 中 ， 现 在 可 以 恢复 
该 等 等 线程 执行 。 


‘resume threads waiting for 


current's termination 


320) += 
if (!isempty(joinO) && nthreads == 2) { 
assert(isempty(ready) ); 
put(get(&joinO), &ready); 
} 


断言 有 助 于 检测 维护 nthreads 和 ready 时 可 能 出 现 的 错误 : 如果 join0 非 
空 ， 而 nthreads 为 2， 那 么 ready 必 定 为 空 ， 因 为 在 两 个 现存 线程 中 ， 一 个 
位 于 join0 中 ， 而 另 一 个 则 在 执行 Thread_exit。 





Thread _ exit 结束 时 ， 会 将 nthreads 减 1， 人 然后 调用 库 函 数 exit 或 者 运 
行 另 一 个 线程 : 


(run another thread or exit 


321) = 
if (--nthreads == 0) 
exit(code); 
else 


run(); 





Thread_alert 将 一 线程 线程 标记 “警报 一 待 决 ?状态 ， 这 是 通过 在 其 
Thread_T 结 构 中 设置 一 个 标志 并 将 该 线程 从 所 属 队 列 删除 (如 果 有 所 属 
队列 ) 实现 的 。 


(thread functions 


316) += 

void Thread_alert(T t) { 
assert(current); 
assert(t && t->handle == t); 
t->alerted = 1; 
if (t->inqueue) { 


delete(t, t->inqueue); 


put(t, &ready); 


(fields 


314) += 


int alerted; 





Thread_alert 自 身 不 会 引发 Thread_Alerted 异 常 ， 因 为 调用 线程 与 {t 所 
处 状态 是 不 同 的 。 线 程 必 须 自行 引发 Thread_Alerted 异 常 并 处 理 该 异 
常 ， 这 也 是 testalert 的 目的 : 








(static functions 


315) += 
static void testalert(void) { 
if (current->alerted) { 
current->alerted = 0; 


RAISE(Thread_Alerted); 


(data 


314) += 
const Except_T Thread_Alerted = { "Thread alerted" }; 


每 当 一 个 线程 即将 阻塞 ， 或 线程 在 阻塞 之 后 恢复 执行 时 ， 都 会 调用 
testalert。 前 一 种 情况 ， 由 Thread_join 开 头 处 对 testalert 的 调用 说 明 。 后 
一 种 情况 ， 总 是 出 现在 对 run 的 调用 之 后 ， 可 以 由 代码 块 <wait for threadt 
to terminate 319> 和 <wait for all threads to terminate 320> 中 对 testalert 的 调 
用 说 明 。 类 似 的 用 法 也 出 现在 Sem_wait 和 Sem_signal 中 ， 参 见 20.3.5 节 。 


20.3.3 ”线程 创建 和 上 下 文 切换 


最 后 一 个 Thread 函 数 是 Thread_new。Thread_new 的 一 些 部 分 是 与 机 
器 相关 的 ， 因 为 它 与 _swtch 交 互 ， 但 该 函数 中 大 部 分 代码 是 几乎 与 机 器 
无 天 的 。Thread_new 有 4 个 任务 : 为 一 个 新 线程 分 配 资源 ， 初 始 化 新 线 
程 的 状态 〈 使 之 仿佛 从 _swtch 返 回 并 继续 执行 ) ， 将 nthreads 加 1， 将 新 
线程 添加 到 ready。 








(thread functions 


316) += 


T Thread_new(int apply(void *), void *args, 


int nbytes, ...) { 


T t 


assert(current); 
assert(apply); 
assert(args && nbytes >= © || args == NULL); 
if (args == NULL) 
nbytes = 0; 


(allocate resources for a new thread 


322) 
t->handle = t; 


(initialize 


t's state 


324) 
nthreads++; 
put(t, &ready); 


return t; 


在 这 个 对 Thread 接 口 的 单 处 理 器 实现 中 ， 一 个 线程 需要 的 唯一 资源 
是 Thread_T 结 构 和 一 个 栈 。Thread_T 结 构 和 一 个 16KB 的 栈 ， 通 过 对 
Mem 接 口中 ALLOC 的 一 次 调用 完成 : 


(allocate resources for a new thread 


322) = 


int stacksize = (16*1024+sizeof (*t)+nbytes+15)& ~15; 
release(); 


(begin critical region 


323) 
TRY 
t = ALLOC(stacksize); 
memset(t, '\O', sizeof *t); 
EXCEPT (Mem_Failed) 
t = NULL; 
END_TRY; 


(end critical region 


323) 
if (t == NULL) 
RAISE(Thread_Failed) ; 


(initialize 


t's stack pointer 


314) += 
const Except_T Thread_Failed = 


{ "Thread creation failed" }; 





该 代码 有 些 复 杂 ， 因 为 它 必须 得 维护 几 个 不 变量 ， 其 中 最 重要 的 的 是 : 
对 Thread 接 口 函数 的 调用 不 能 被 中 断 。 有 两 个 机 制 协作 来 维护 该 不 变 
量 : 一 种 机 制 ， 处 理 当 控制 位 于 某 个 Thread 接 口 函数 中 时 出 现 的 中 断 ， 
如 下 文 所 述 。 另 一 种 机 制 ， 处 理 当 控制 位 于 被 某 个 Thread 接 口 函 数 调用 


的 例 程 中 时 出 现 的 中 断 ， 由 对 ALLOC 和 memset 的 调用 说 明 。 此 类 调 
用 ， 都 被 用 于 标识 临界 区 的 代码 块 包围 (这 种 代码 块 分 别 对 critical 值 加 
1 和 减 1) : 


(begin critical region 


323) = 


do { critical++; 


(end critical region 


323) = 


critical--; } while (0); 


(data 


314) += 


static int critical; 


如 20.3.4 节 所 示 ， 当 critical 非 零 时 发 生 的 中 断 被 忽略 。 





Thread_new 必 须 自 行 捕获 Mem_Failed 异 常 ， 并 在 离开 临界 区 之 后 引 








发 目 身 的 异常 Thread_failed。 如 采 它 不 捕获 该 异常 ， 控 制 将 转移 到 调用 
者 的 异常 处 理 程序 ， 此 时 critical 已 经 被 设置 为 正 值 ， 不 会 再 被 减 1。 


Thread_new 假 定 栈 癌 低 地 址 方向 增长 ， 它 将 sp 字段 初始 化 为 如 图 
20-5 所 示 ， 顶 部 的 阴影 方 框 是 Thread_T 结 构 ， 底 部 是 args 的 副本 和 最 初 
的 栈 帧 ， 如 下 所 述 。 


(initialize 


t's stack pointer 


t->sp = (void *)((char *)t + stacksize); 
while (((unsigned long)t->sp)&15) 


t->sp--; 


如 上 述 代 码 块 对 stacksize 的 赋值 所 示 ，Thread_new 初 始 化 栈 指针 使 之 对 
齐 到 16 字 节 边 界 ， 这 样 做 可 以 适应 大 多 数 平台 。 大 多 数 机 器 要 求 栈 对 齐 
到 四 字 节 或 八字 节 边 界 ， 但 DEC ALPHA 要 求 16 字 节 对 齐 。 





Thread_new 从 调用 release 开 始 ，Thread_exit 也 调用 了 该 函数 。 
Thread_exit 不 能 释放 当前 线程 的 栈 ， 因 为 Thread_exit 正 在 使 用 该 栈 。 因 
此 它 将 线程 句柄 添加 到 freelist， 将 释放 操作 延迟 到 下 一 次 调用 release: 


(static functions 


315) += 
static void release(void) { 
Tet} 


(begin critical region 


323) 
while ((t = freelist) != NULL) { 
freelist = t->next; 
FREE(t); 
} 


‘end critical region 


323) 


release 设 计 得 过 于 通用 : freelist 只 有 一 个 元 素 ， 因 为 Thread_exit 和 
Thread_new 都 会 调用 release。 如 果 只 有 Thread_new 调 用 release， 那 么 已 
结束 线程 的 Thread_T 实 例 将 会 在 freelist 上 累积 起 来 。release 使 用 了 一 个 
临界 区 ， 因 为 它 调用 了 Mem 接 口中 的 FREE。 


接 下 来 ，Thread_new 初 始 化 新 线程 的 栈 ， 使 之 包含 从 args 开 始 的 
nbytes 字 节 的 一 个 副本 ， 并 设置 初始 栈 帧 ， 使 之 看 似 刚 刚 调用 过 
_swtch。 后 一 种 初始 化 是 与 机 器 相关 的 : 


(initialize 


t's state 


324) = 
if (nbytes > 0) { 
t->sp -= ((nbytes + 15U)& ~15)/sizeof (*t->sp); 


(begin critical region 


323) 
memcpy(t->sp, args, nbytes); 


(end critical region 


323) 


args = t->sp; 


} 
#1if alpha 


{ ‘initialize an ALPHA stack 


335) } 
#elif mips 


{ (initialize a MIPS stack 


333) } 
#elif sparc 


{ (initialize a SPARC stack 


326) } 
#else 
Unsupported platform 


#endif 


图 20-5 中 给 出 的 栈 ， 其 底部 描述 了 这 些 初始 化 操作 的 结果 : 深 色 阴 
影 标识 了 与 机 器 相关 的 栈 帧 ， 而 浅 色 阴 影 是 args 的 副本 。thread.c 和 
swtch.s 是 本 书 中 仅 有 的 使 用 条 件 编 译 的 模块 。 











图 20-5 Thread T 结 构 与 栈 的 分 配 


在 列 出 _swtch 汇 编 语言 实现 的 纲要 之 后 ， 栈 初始 化 变 得 更 容易 理 
解 : 


(swtch.s 


) = 
#if alpha 


(ALPHA swtch 


334) 


(ALPHA startup 


334) 
#elif sparc 


(SPARC swtch 


325) 


(SPARC startup 


326) 
#elif mips 


(MIPS swtch 


332) 


(MIPS startup 


333) 
#else 


Unsupported platform 


#endif 


_swtch(from, to) 必 须 保 存 from 的 状态 ， 恢 复 to 的 状态 ， 并 使 to 从 最 近 一 
次 对 _swtch 的 调用 返回 ， 以 便 使 to 继续 执行 。 调 用 约定 保存 了 大 部 分 状 
态 ， 因 为 它们 通常 规定 在 不 同调 用 之 间 必 须 保存 某 些 寄存 器 的 值 ， 而 一 
些 机 器 状态 信息 没有 保存 ， 如 条 件 码 (condition code register， 即 处 理 器 
中 的 状态 寄存 器 ， 亦 称 为 status register 或 flag register) 。 因 此 _swtch 只 保 
存 其 所 需 ， 而 调用 约定 又 没有 保存 的 那些 状态 ， 例 如 返回 地 址 ， 它 可 能 
将 这 些 值 保 存 到 调用 线程 的 栈 上 。 

















对 应 SPARC 体 系 结构 的 _swtch 实 现 可 能 是 最 容易 的 ， 因 为 SPARC 调 
用 约定 给 每 个 函数 都 提供 了 自 吴 的 “寄存 器 窗口 ”(register window) ， 
从 而 保存 了 所 有 的 寄存 器 ，_swtch 唯 一 需要 保存 的 寄存 器 是 栈 帧 指针 

(frame pointer) 和 返回 地 址 。 











(SPARC swtch 





325) = 

.global __swtch 

.align 4 

.proc 4 
1 — Swtch:save %sp, -(8+64),%Sp 
2 st %fp, [%sp+64+0] ! 保存 from 的 帧 指针 
3 st %i7, [%spt64+4] ! 保存 from 的 返回 地 址 
4 ta 3 ! 刷 出 from 的 寄存 器 
5 st %sp, [%i0] ! 保存 from 的 栈 指针 


[%11], %Sp 
! 加 载 to 的 栈 指针 
7 ld [%sp+64+0],%fp ! 恢复 to 的 帧 指针 
8 1d [%sp+64+4],%i7 ”1! 恢复 to 的 返回 地 址 
9 ret ! 使 to 继续 执行 
10 restore 








上 述 的 行 号 标识 了 代码 的 各 行 ， 以 便 下 文 解释 ， 这 些 行 号 不 是 汇编 语言 
代码 的 一 部 分 。 按 照 惯例 ， 汇 编 语 言 名 称 以 一 个 下 划 线 作为 前 级 ， 因 此 
_swtch 在 SPARC 平 台 的 汇编 语言 中 写作 _swtch。 





图 20-6 给 出 了 _swtch 的 栈 帧 布局 ， 所 有 的 SPARC 栈 帧 ， 在 栈 帧 项 部 
都 全 少 有 64 字 节 ， 供 操作 系统 在 必要 时 保存 函数 的 寄存 器 窗口 。 在 
_swtch 的 栈 帧 长 度 为 72 字 市 ，64 字 节 之 外 余下 的 两 个 字 ， 分 别 保存 了 帧 
指针 和 返回 地 址 。 





%sp 


%sp+64 


返回 地 址 %sp+68 





64 FP = 16 = 
保存 的 帧 指针 
图 20-6 _swtchay He A Æ 


_swtch 中 的 第 1 行为 _ swtch 分 配 了 一 个 栈 帧 。 第 2 行 和 第 3 行 保存 from 
的 帧 指针 C%fp) 和 返回 地 址 (%i7〉， 二 者 分 别 保存 到 新 帧 的 第 十 七 
个 和 第 十 八 个 32 位 字 〔( 偏 移 量 64 和 68 处 ) 。 第 4 行进 行 了 一 次 系统 调 
用 ， 以 便 将 from 的 寄存 器 窗口 “ 刷 出 ?到 栈 上 ， 为 用 to 的 寄存 器 窗口 继续 
执行 ， 这 样 做 是 必需 的 。 这 个 调用 令 人 遗憾 : 对 用 户 级 线程 来 说 ， 一 个 
预先 推定 的 好 处 是 ， 上 下 文 切换 不 需要 内 核 干 预 。 但 在 SPARC 上 ， 只 有 
内 核能 够 刷 出 寄存 器 窗口 。 





第 5 行将 from 的 栈 指针 保存 到 其 Thread_T 结 构 中 的 sp 字段 。 这 个 指 
令 说 明了 为 什么 该 字段 需要 放置 在 结构 的 头 部 : 该 代码 与 Thread_T 结 构 
实例 的 长 度 和 其 他 字段 的 位 置 都 是 无 关 的 。 第 6 行 是 斜体 ， 因 为 它 是 实 
际 的 上 下 文 切换 。 该 指令 加 载 to 的 栈 指针 到 %sp 中 《 栈 指针 寄存 器 ) 。 
此 后 ，_swtch 是 在 to 的 栈 上 执行 。 第 7 行 和 第 8 行 分 别 恢复 to 的 帧 指针 和 
返回 地 址 ， 因 为 %sp 现 在 指 癌 to 的 栈 顶 。 第 9 行 和 第 10 行 构成 了 常规 的 函 
数 返 回 指令 序列 ， 控 制 返回 到 to 线程 上 一 次 调用 _swtch 之 后 的 地 址 继续 
执行 。 








Thread_new 必 须 为 _swtch 创 建 一 个 栈 帧 ， 以 便 其 他 线程 对 _swtch 的 
调用 能 够 正确 地 返回 ， 从 而 开始 新 线程 的 执行 ， 该 执行 必须 调用 
apply。 图 20-7 给 出 了 Thread_new 建 立 的 构造 : _swtch 的 栈 帧 位 于 栈 顶 ， 
其 下 的 栈 帧 用 于 下 述 局 动 代码 。 


(SPARC startup 


326) = 
.global _ start 
.align 4 
.proc 4 
1 __start:ld [%sp+64+4], %00 
2 ld [%sp+64], %01 
3 call %o1; nop 
4 call _Thread_exit; nop 
5 unimp 0 


.global _ ENDMONITOR 
__ENDMONITOR: 


_swtch 栈 帧 中 的 返回 地 址 指向 _start， 启 动 代码 的 栈 帧 包含 apply 和 args， 
如 图 20-7 所 示 。 在 第 一 次 从 _swtch 返 回 时 ， 控 制 转 移 到 _start〈 汇 编 代 码 
HA) start) 。 启 动 代码 中 的 第 1 行将 args 加 载 到 %o0 中 ， 该 寄存 器 在 
SPARC 调 用 约定 中 用 于 传递 第 一 个 参数 。 第 2 行将 apply 的 地 址 加 载 

到 %ol 中 ， 该 寄存 器 在 其 他 情况 下 并 不 使 用 ， 第 3 行 对 apply 进 行 了 间接 
调用 。 如 果 apply 有 返回， 其 退出 代码 位 于 %o0 中 ， 该 值 将 传递 给 


Thread_exit，Thread_exit 从 不 返回 。 第 5 行 应 该 从 不 执行 ， 如 果 执 行 ， 它 
将 导致 异常 。_ ENDMONITOR 将 在 下 文 解释 。 





_swtch 和 _start 中 的 15 行 汇编 语言 ， 就 是 SPARC 体 系 结构 上 所 有 必 
需 的 东西 ， 如 图 20-7 所 示 ， 为 新 线程 初始 化 栈 的 工作 完全 可 以 用 C 语 言 
完成 。 两 个 栈 帧 是 目 底 向 上 建立 的 ， 如 下 。 





(initialize a SPARC stack 


326) = 

1 int i; void *fp; extern void _start(void); 
2 for (i = 0; i < 8; i++) 

3 *--t->sp = 0; 

4 *--t->sp = (unsigned long)args; 

5 *--t->sp = (unsigned long)apply; 

6 t->sp -= 64/4; 

7 fp = t->sp; 

8 *--t->sp = (unsigned long) start - 8; 
9 *--t->sp = (unsigned long)fp; 

10 t->sp -= 64/4; 


_swtch 的 栈 帧 





| 
启动 代码 的 栈 帧 








图 20-7 ”SPARC 架 构 上 线程 启动 代码 和 初始 _swtch 的 栈 帧 


第 2 行 和 第 3 行 创建 启动 栈 帧 底部 的 八 个 字 。 第 4 行 和 第 5 行将 args 的 
值 和 apply 投 入 栈 中 ， 第 6 行 在 启动 栈 帧 的 顶部 分 配 了 64 个 字 节 。 此 时 的 
栈 指针 ， 即 为 必须 通过 _swtch 恢 复 的 帧 指针 ， 因 此 第 7 行将 该 值 保存 到 
印 。 第 8 行将 返回 地 址 压 栈 ， 即 %i7 的 保存 值 。 返 回 地 址 是 _start 之 前 八 个 
字 节 ， 因 为 SPARC 架 构 中 的 ret 指 令 在 返回 时 会 向 %i7 中 的 地 址 加 8。 第 9 
行将 % 印 的 保存 值 压 栈 ， 第 10 行 在 _swtch 栈 帧 顶部 分 配 64 字 节 ， 初 始 化 
栈 帧 的 工作 到 此 结束 。 


如 果 apply 是 一 个 有 可 变数 目 参 数 的 函数 ， 其 入 口 指令 序列 将 %o0 
到 %o5 寄 存 器 中 的 值 保 存 到 栈 上 ， 位 于 其 调用 者 栈 帧 的 仿 移 量 64 到 88 
处 ， 即 在 局 动 代码 的 栈 帧 中 。 第 2 行 和 第 3 行为 此 分 配 了 空间 ， 并 和 额外 增 
加 了 8 字 节 ， 使 得 栈 指针 仍然 能 够 对 齐 到 8 字 市 边界 ， 这 是 SPARC 人 硬件 的 


_swtch 和 _start 的 MIPS 和 ALPHA 版 本 ， 将 在 20.3.6 节 讲述 


20.3.4 抢占 


抢占 等 效 于 周期 性 地 隐 式 调用 Thread_pause。Thread 中 对 抢占 的 实 
现 是 UNIX 相 关 的 ， 其 中 设 定 了 一 个 周期 为 50 喀 秒 的 “虚拟 ”时钟 中 断 ， 
由 中 断 处 理 程序 来 执行 相当 于 Thread_pause 的 代码 。 该 定时 器 是 虚拟 
的 ， 因 为 仅 当 进程 执行 时 ， 访 时钟 才 运转 。Thread_init 使 用 UNIX 信 号 设 
施 来 初始 化 时 钟 中 断 。 第 一 步 是 将 中 断 处理 程 序 关 联 到 虚拟 定时 器 信和 号 
SIGVTALRM: 





(initialize preemptive scheduling 


328) = 

{ 
struct sigaction sa; 
memset(&sa, '\O', sizeof sa); 
sa.sa_handler = (void (*)())interrupt; 
if (Sigaction(SIGVTALRM, &sa, NULL) < 0) 

return 0; 
} 


sigaction 结 构 有 三 个 字段 : sa_handler 是 SIGVTALRM 信 号 发 生 时 要 调用 
的 函数 的 地 址 ，sa_mask 是 一 个 信号 集合 ， 指 定 了 在 中 断 处 理 期 间 应 该 
阻塞 的 信号 〈 包 括 SIGVTALRM 在 内 ) ，sa_flags 提 供 了 特定 于 信号 的 选 





项 。 如 下 所 述 ，Thread_init 将 sa_handler 设 置 为 interrupt， 并 将 其 他 字段 


VEE BS 
B&S o 


sigaction PA žre H TJEKKES S POSIX rt PRA. K 
多 数 UNIX 变 体 和 一 些 其 他 操作 系统 〈 如 Windows NT) ， 都 文 持 POSIX 
标准 。 该 函数 的 三 个 参数 ， 分 别 给 出 了 信和 号 的 符号 名 、 指 网 sigaction 结 
构 实 例 〈 用 以 修改 对 信和 号 的 处 理 ) 的 指针 和 指 辣 男 一 个 sigaction 结 构 实 
例 〈 用 于 获取 此 前 对 该 信号 的 处 理 设置 ) 的 指针 。 当 第 三 个 参数 为 
NULL 时 ， 不 会 返回 此 前 对 该 信号 处 理 的 设置 。 








当 对 该 信号 的 处 理 设 置 已 经 按 第 二 个 参数 的 指定 修改 完成 时 ， 
sigaction 函 数 返回 9， 否则 返回 -1。 当 sigaction 返 回 -1 时 ，Thread_init 返 回 
0， 表 示 线 程 系 统 不 文 持 抢占 调度 。 





在 信号 处 理 程序 就 位 后 ， 将 初始 化 虚拟 定时 器 : 


(initialize preemptive scheduling 


328) += 
{ 
struct itimerval it; 
it.it_value.tv_sec = 0; 
it.it_value.tv_usec = 50; 
it.it_interval.tv_sec = ©; 


it.it_interval.tv_usec = 50; 


if (setitimer(ITIMER_VIRTUAL, &it, NULL) < 0) 


return 0; 


} 


itimerval 结 构 中 的 it_value 字 7 段 ， 按 秒 (tv_sec) 和 毫秒 (tv_msec) 为 单 

位 ， 指 定 了 到 下 一 次 时 钟 中 断 还 有 多 长 时 间 。it_interval 字 段 中 的 值 用 于 
在 定时 器 到 期 时 重 置 it_value 字 段 。Thread init 将 时 钟 中 断 设 置 为 每 隔 50 
宣 秒 发 生 一 次 。 





setitimer 函 数 很 像 是 sigaction 函 数 : 其 第 一 个 参数 指定 了 影响 哪个 定 
时 器 的 行为 (因为 还 有 一 个 实时 定时 器 ) ， 第 二 个 参数 是 一 个 指 同 
itimerval 结 构 实 例 〈 其 中 包含 了 新 的 定时 器 值 ) 的 指针 ， 第 三 个 参数 也 
是 一 个 指 同 iimerval 结 构 实例 (用 于 获取 此 前 的 定时 器 设置 ) 的 指针 

《如果 不 需要 此 前 的 设置 ， 则 指针 为 NULL)〉。 当 定时 器 设置 成 功 时 ， 
setitimer 返 回 0， 人 个 则 返回 -1。 








当 虚 拟定 时 器 到 期 时 ， 将 调用 信号 处 理 程序 interrupt。 当 中 断 续 
束 ， 即 interrupt 返 回 时 ， 定 时 器 重新 开始 。 除 非 当 前 线程 处 于 临界 区 
中 ， 或 处 于 某 个 Thread 或 Sam 函数 中 ， 人 否则 interrupt 执 行 的 代码 与 


Thread_pause 等 效 。 


(static functions 


315) += 
static int interrupt(int sig, int code, 
struct sigcontext *scp) { 


if (critical || 


scp->sc_pc >= (unsigned long) MONITOR 
&& SCp->Sc_pc <= (unsigned long) ENDMONITOR) 
return 0; 
put(current, &ready); 
Sigsetmask(Sscp->sc_mask); 
run(); 
return 0; 


J 


sjg 人 参数 承载 的 是 信号 号 码 ，code 为 某 些 信号 提供 了 额外 的 数据 。scp 参 
数 是 一 个 指向 sig-context 结 构 的 指针 ， 结 构 的 sc_pc 字 段 提 供 了 发 生 中 断 
时 的 指令 计数 器 。thread.c 从 空 函数 _MONITOR 开 始 ， 而 swtch.s 中 的 汇 
编 语 言 代 码 以 全 局 符号 _ENDMONITOR 的 定义 结束 。 如 果 目 标 文件 载 
入 程序 的 顺序 是 swtch.s 的 目标 码 在 thread.c 的 目标 码 之 后 ， 那 么 对 于 被 中 
电 的 线程 来 说 ， 如 果 其 指令 计数 器 位 于 _MONITOR 和 _ENDMONITOR 
之 间 ， 那 么 该 线程 当时 正在 执行 某 个 Thread 或 Sam 函数 。 因 而 ， 如 果 
critical 为 非 零 值 ， 或 scp->sc_pc 位 于 _MONITOR 和 _ENDMONITOR 之 
间 ， 那 么 interrupt 将 返回 而 忽略 时 钟 中 断 。 人 否则 ，interrupt 将 当前 线程 置 
于 ready 队 列 上 ， 而 运行 另 一 个 线程 。 





对 sigsetmask 的 调用 ， 将 恢复 此 前 被 中 断 停 用 的 信号 〈 由 信号 集合 
scp->sc_mask 发 出 ) ， 该 集合 通常 只 包含 SIGVTALRM 信 号。 该 调用 是 
必需 的 ， 接 下 来 即将 运行 的 线程 可 能 不 是 通过 中 断 挂 起 的 。 例 如 ， 假 定 
线程 A 显 式 调用 了 Thread_pause 而 挂 起 ， 线 程 B 继 续 执 行 。 在 时 钟 中 断 发 
生 时 ， 控 制 进入 到 interrupt， 此 时 SIGVTALRM 信 和 号 已 经 被 禁用 。B 在 
interrupt 中 重新 启用 了 SIGVTALRM 信 号 ， 并 放弃 处 理 器 给 线程 A。 








如 果 和 忽略 对 sigsetmask 的 调用 ， 线 程 A 恢复 执行 时 ，SIGVTALRM 信 


号 将 是 被 茶 用 的 ， 因 为 A 是 通过 Thread_pause 挂 起 的 ， 而 不 是 通过 
interrupt。 在 下 一 次 发 生 时 钟 中 断 时 ，A 挂 起 而 B 继 续 执 行 。 在 这 种 情况 
下 ， 调 用 sigsetmask 是 多 余 的 ， 因 为 线程 B 释 放 了 了 中断， 这 将 恢复 信号 掩 
人 码 Thread_T 结 构 中 的 一 个 标志 可 用 于 避免 对 sigsetmask 的 不 必要 的 调 

用 。 








中 断 处 理 程序 的 第 二 个 和 后 续 的 参数 是 系统 相关 的 。 大 多 数 UNIX 
变 体 都 支持 上 述 的 code 和 scp 参 数 ， 但 其 他 POSIX 兼 容 系 统 可 能 同 处 理 程 
序 提供 不 同 的 参数 。 


20.35 “一般 信号 量 








在 四 个 Sem 函 数 中 ， 创 建 和 初始 化 信号 量 是 比较 容易 的 两 个 : 


(sem functions 


330) = 
T *Sem_new(int count) { 


I ESS 


NEW(s); 
Sem_init(s, count); 


return s; 


void Sem_init(T *s, int count) { 
assert(current); 
assert(s); 
s->count = count; 


s->queue = NULL; 


Sem_wait 和 Sem_signal 比 较 简 短 ， 但 对 这 两 个 函数 给 出 正确 且 公 平 
的 实现 ， 需 要 很 强 的 技巧 。 信 号 量 操作 在 语义 上 相当 于 下 述 代码 : 


Sem_wait(s): while (s->count <= 0) 


--S->count,; 


Sem_signal(s): ++sS->count; 


这 些 语义 会 导致 简洁 、 正 确 ， 但 并 不 公平 的 实现 ， 如 下 所 示 ， REKI 
也 忽略 了 警报 一 待 决 状态 和 已 检查 的 运行 时 错误 。 





void Sem_wait(T *s) { 
while (s->count <= 0) { 
put(current, &s->queue); 
run(); 


} 


--s->count; 


void Sem_signal(T *s) { 


if (++s->count > © && !isempty(s->queue) ) 
put(get(&s->queue), &ready); 
} 


这 些 实现 是 不 公平 的 ， 因 为 它们 允许 “饥饿 ”发 生 。 假 定 s 初 始 化 为 1， 二 
线程 A 和 B 都 执行 下 述 代码 : 


for (;;) { 


Sem_wait(s); 


Sem_signal(s); 


} 





假定 线程 A 处 于 省 略 号 表示 的 临界 区 中 ， 而 B 处 于 s->queue 队 列 中 。 当 A 
调用 Sem_signal 时 ， 线 程 B 移 动 到 瓯 绪 队 列 。 如 果 B 继 续 执 行 ， 其 对 
Sem_wait 的 调用 将 返回 ， 而 B 将 进入 临界 区 。 但 A 可 能 先 调用 

Sem_wait， 并 获取 临界 区 。 如 果 人 A 在 临界 区 内 部 执行 时 被 抢占 ， 那 么 B 
恢复 执行 但 发 现 s->count 为 0， 因 而 又 移 回 s->queue 队 列 上 。 如 果 没 有 某 
种 外 部 干预 ，B 可 能 在 ready 和 s->queue 两 个 队列 之 间 无 限 循环 下 去 ， 如 
果 有 更 多 线程 竞争 s， 那 么 造成 饥饿 的 可 能 性 更 高 。 





一 种 解决 方案 是 ， 当 一 个 线程 从 s->queue 移 动 到 ready 时 ， 要 确保 该 
线程 获取 到 信号 量 。 这 种 方案 的 实现 ， 可 以 通过 在 s->count 即 将 从 0 变 为 
1 时 ， 将 一 个 线程 从 s->queue 移 动 到 ready， 但 实际 上 并 不 对 s->count 执 行 
加 1 操作 。 类 似 地 ， 当 一 个 被 阻 堵 的 线程 从 Sem_wait 中 恢复 执行 时 ， 也 
并 不 对 s->count 执 行 减 1 操作 。 





(sem functions 


330) += 
void Sem_wait(T *s) { 
assert(current); 
assert(s); 
testalert(); 
if (s->count <= 0) { 
put(current, (Thread_T *)&s->queue); 
run(); 
testalert(); 
} else 


--S->count; 


void Sem_signal(T *s) { 

assert(current); 

assert(s); 

if (s->count == 0 && !isempty(s->queue)) { 
Thread_T t = get((Thread_T *)&s->queue); 
assert(!t->alerted); 
put(t, &ready); 

} else 


++s->count; 


当 s->count 为 0 且 线 程 C 移 到 就 绪 队 列 时 ，C 将 确保 能 够 获取 到 该 信号 
量 ， 因 为 由 于 s->count 为 0， 其 他 调用 Sem_wait 的 线程 将 一 直 处 于 阻 罕 状 
态 。 但 对 于 一 般 信 和 号 量 来 说 ， 线 程 C 未 必 能 先 获 取 到 信和 号 量 : 如 果 D 在 C 
再 次 运行 之 前 调用 Sem_signal， 那 么 就 制造 了 一 个 “时 间 窗 口 ?， 使 得 另 
一 个 线程 可 能 在 C 之 前 获取 到 信和 号 量 ， 当 然 线程 C 也 会 获取 到 该 信号 
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警报 一 待 决 状态 ， 可 能 使 得 Sem_wait 难 于 理解 。 如 果 在 s 上 阻塞 的 
一 个 线程 被 设置 为 党 报 一 待 决 状态 ， 那 么 该 线程 在 Sem_wait 中 对 run 的 
调用 将 立即 返回 ， 同 时 设置 其 alerted 标 志 。 在 这 种 情况 下， 该 线程 是 被 
Thread_Alert〔 而 非 Sem_signal) 移 到 ready 队 列 的 ， 因 此 其 恢复 执行 与 s- 
>count 的 值 无 关 。 该 线程 必须 使 $ 处 于 无 扰动 状态 ， 并 清除 自 号 的 alerted 
标志 ， 而 后 引发 Thread_Alerted 异 和 常 。 





20.3.6 MIPS 和 ALPHA 上 的 上 下 文 
切换 


_swtch 和 _start 的 MIPS 和 和 ALPHA 版 本 ， 与 其 SPARC 版 本 相 比 ， 在 设 
计 上 是 类 似 的 ， 但 细节 上 是 不 同 的 。 


_swtch 的 MIPS 版 本 如 下 所 示 。 其 栈 帧 长 度 为 88 字 节 。 通 过 sw 
$31,48+36($sp) 实 现 的 存储 指令 ， 保 存 了 “由 调用 者 保存 ”的 浮 点 与 整数 
寄存 器 ， 寄 存 器 31 包 含 了 返回 地 址 。 用 和 斜体 字 印 刷 的 指令 通过 加 载 to 的 
栈 指针 来 切换 上 下 文 ， 接 下 来 的 加 载 指 令 恢复 了 线程 to“ 由 调用 者 保 
存 ” 的 寄存 器 。 





(MIPS swtch 


332) = 
„text 
.globl 
align 
.ent 
.Set 


_swtch: 


_swtch 


2 


_swtch 
reorder 
. frame 

subu 


.fmask 


Ss. 


S. 


d 


$sp, 88, $31 
$sp, 88 
Oxfff00000, -48 
$f20,0($sp) 
$f22,8($sp) 
$f24,16($sp) 
$f26,24($sp) 
$f28,32($sp) 
$f30, 40($sp) 
OxcOffO000, -4 
$16, 48+0($sp) 
$17, 48+4($sp) 
$18, 48+8($sp) 
$19, 48+12($sp) 
$20, 48+16($sp) 
$21, 48+20($sp) 
$22,48+24($sp) 
$23, 48+28($sp) 


SW 
SW 
SW 


lw 


e e FP FP FF KH 
oO oo iG... oo oo co 


$30, 48+32($sp) 
$31, 48+36($sp) 
$sp, 0($4) 
$sp,0($5) 


$F20,0($sp) 
$f22,8($sp) 
$f24,16($sp) 
$F26, 24($sp) 
$f28, 32($sp) 
$f30, 40($sp) 
$16, 48+0($sp) 
$17, 48+4($sp) 
$18, 48+8($sp) 
$19, 48+12($sp) 
$20, 48+16($sp) 
$21, 48+20($sp) 
$22,48+24($sp) 
$23, 48+28($sp) 
$30, 48+32($sp) 
$31, 48+36($sp) 
$sp, 88 

$31 


这 里 是 MIPS 的 线程 启动 代码 : 


(MIPS startup 


333) = 
.globl _start 











_start: move $4, $23 # 寄存 器 23 保 存 args 
move $25, $30 # 寄存 器 30 保 存 apply 
jal $25 
move $4, $2 # Thread exit(apply(p)) 
move $25, $21 # 寄存 器 21 保 存 Thread_exit 
jal $25 
syscall 

.end _swtch 


.globl _ENDMONITOR 
_ENDMONITOR: 


该 代码 与 Thread_new 中 与 MIPS 相 关 的 部 分 协作 ，Thread_new 将 
Thread_exit、args、apply 保 存 到 栈 帧 中 适当 的 位 置 ， 以 便 使 之 分 别 加 载 
到 寄存 器 21、23、30。apply 的 第 一 个 参数 通过 寄存 器 4 传递 ， 其 结果 通 
过 寄存 器 2 返回 。 局 动 代码 并 不 需要 栈 帧 ， 因 此 Thread_new 只 建立 了 
_swtch 的 栈 帧 ， 但 它 确 实在 栈 中 _swtch 栈 帧 之 下 的 位 置 分 配 了 4 个 字 ， 以 
便 处 理 apply 需 要 可 变数 目 参 数 的 情形 。 











(initialize a MIPS stack 


333) = 
extern void _start(void); 
t->sp -= 16/4; 
t->sp -= 88/4; 
t->sp[(48+20)/4] = (unsigned long)Thread_exit; 
t->sp[(48+28)/4] = (unsigned long)args; 
t->sp[(48+32)/4] = (unsigned long)apply; 


t->sp[(48+36)/4] = (unsigned long)_start; 


Thread_exit 的 地 址 通过 寄存 器 21 传 递 ， 因 为 MIPS 线 程 司 动 代码 必须 是 位 
置 无 关 的 。 局 动 代码 将 args 的 地 址 复制 到 寄存 器 4， 并 在 对 应 的 调用 “〈jal 
指令 ) 前 将 apply 和 Thread_exit 的 地 址 复制 到 寄存 器 25， 因 为 这 是 MIPS 
架构 上 与 位 置 无 关 的 调用 指令 序列 的 要 求 。 





ALPHA 版 本 的 代码 块 与 对 应 的 MIPS 代 码 块 类 似 。 


(ALPHA swtch 


334) = 
.globl _swtch 


.ent _swtch 








_swtch: lda $sp, -112($sp) # 分 配 _swtch 的 栈 帧 
.frame $sp,112, $26 
.fmask 0x3f0000, -112 








stt $f21,0($sp) # 保存 from 的 寄存 器 
Stt $f20, 8($sp) 

stt $f19,16($sp) 

stt $f18,24($sp) 

stt $f17, 32($sp) 

stt $f16, 40($sp) 

.mask 0x400fe00, -64 

stq $26, 48+0($sp) 

stq $15, 48+8($sp) 

stq $14, 48+16($sp) 

stq $13, 48+24($sp) 

stq $12, 48+32($sp) 

stq $11, 48+40($sp) 

stq $10, 48+48($sp) 

stq $9, 48+56($sp) 

prologue 0 

stq $sp, 0( $16) # 保存 from 的 栈 指 针 
ldq $sp,0($17) 


# 恢复 to 的 栈 指针 


ldt 
ldt 
ldt 
ldt 
ldt 


$f21,0($sp) # 恢复 to 的 寄存 器 
$f20, 8($sp) 
$f19,16($sp) 
$f18,24($sp) 
$f17, 32($sp) 


,end 


(ALPHA startup 


334) = 
.globl 
.ent 


_start: 


ldt $f16, 40($sp) 
ldq $26, 48+0($sp) 
ldq $15, 48+8($sp) 
ldq $14,48+16($sp) 
ldq $13,48+24($sp) 
ldq $12,48+32($sp) 
ldq $11, 48+40($sp) 
ldq $10, 48+48($sp) 
ldq $9, 48+56($sp) 
lda $sp,112($sp) 
ret $31, ($26) 
_swtch 

_start 

_start 

. frame $sp,0,$26 
.mask 0x0,0 
.prologue 0 

mov $14, $16 

mov $15, $27 

jsr $26, ($27) 
ldgp $26, 0($26) 


# 


# 


# 释放 栈 帧 


寄存 器 14 保 存 args 
寄存 器 15 保 存 apply 
# 调用 apply 

# 重新 加 载 全 局 指针 





mov $0, $16 # Thread_exit(apply(args) ) 





mov $13, $27 # 寄存 器 13 保 存 Thread_exit 地 址 
jsr $26, ($27) 
call_palo 

‘end  _start 


.globl _ENDMONITOR 
_ENDMONITOR: 


(initialize an ALPHA stack 


335) = 
extern void _start(void); 
t->sp -= 112/8; 
t->sp[(48+24)/8] = (unsigned long)Thread_exit; 
t->sp[(48+16)/8] = (unsigned long)args; 
t->sp[(48+ 8)/8] = (unsigned long)apply; 
t->sp[(48+ 0)/8] = (unsigned long)_start; 


20.4 扩展 阅读 


[Andrews，1991] 是 一 本 关于 并 发 程序 设计 的 综合 教科 书 。 它 描述 
了 与 并 行 系统 编程 相关 的 大 多 数 问题 及 其 答案 ， 包 括 同步 机 制 、 消 轧 传 
递 系统 和 远程 过 程 调 用 。 其 中 也 描述 了 四 种 编程 语言 中 为 并 发 程序 设计 
而 专门 设计 的 特性 。 








Thread 基 于 Modula-3 的 线程 接口 ， 后 者 又 源 自 SRC (DEC 的 System 
Research Center) 所 开发 的 Modula-2+ 中 的 线程 设施 。[Nelson，1991] 中 
的 第 4 章 是 线程 编程 方面 的 导 引 ， 由 Andrew ” Birrell 撰写 。 任 何 编写 基于 
线程 的 应 用 程序 的 人 ， 都 会 得 益 于 该 文 。 大 多 数 现 代 操 作 系统 中 的 线程 
设施 ， 都 在 某 些 方面 是 基于 SRC 所 开发 的 接口 。 











[Tanenbaum，1995] 综 述 了 用 户 级 和 内 核 级 线程 的 设计 问题 ， 并 给 
出 了 实现 纲要 。 其 案例 研究 描述 了 三 个 操作 系统 Amoeba、Chorus 和 
Mach) 中 的 线程 软件 包 ， 以 及 OSF 的 DCE 中 的 线程 。 在 我 们 了 解 到 DCE 
时 ，DCE 最 初 运行 在 UNIX 的 OSF/1 变 体 上 ， 但 现在 可 用 于 大 多 数 操作 系 
统 ， 包 括 OpenVMS、0OS/2、Windows NT 和 Windows 95. 





[Kleiman, Shah and Smaalders，1996] 详 述 了 POSIX 线 程 (IEEE, 
1995) 和 Solaris 2 线程 。 这 本 书面 同 实 践 ， 其 中 有 一 章 内 容 曾 述 线程 和 
库 之 间 的 交互 ， 包 括 很 多 使 用 线程 将 算法 并 行 化 的 例子 ， 包 括 排序 以 及 
链表 /队列 / 哈 希 表 的 线程 安全 实现 。 


sieve 改 编 自 [McIlroy，1968] 用 于 说 明 协 程 程序 设计 的 一 个 类 似 例 
子 ， 协 程 类 似 于 非 抢 占线 程 。 协 程 出 现在 几 种 语言 中 ， 有 时 名 称 也 不 





同 。Icon 的 coexpression 就 是 一 个 例子 [Wampler and Griswold, 1983]. 
[Marlin，1980] 综 述 了 许多 原来 的 协 程 建议 方案 ， 并 描述 了 在 Pascal 变 体 
中 的 模型 实现 。 


通道 基于 CSP (communicating sequential processes) ([Hoare, 
1978]) 。 线 程 和 通道 也 出 现在 Newsqueak 中 ， 这 是 一 种 应 用 性 的 并 发 语 
言 。CSP 和 Newsqueak 中 的 通道 比 Chan 提 供 的 更 为 强大 ， 因 为 这 两 种 语 
言 提 供 的 设施 ， 可 用 于 在 多 个 通道 上 以 非 确 定性 方式 等 待 。[Pike， 
1990] 探 讨 了 一 个 Newsqueak 解 释 器 的 实现 中 的 精彩 之 处 ， 并 描述 了 使 用 
随机 数 来 改变 抢占 的 发 生 频 度 ， 这 使 得 线程 调度 具有 非 确定 性 《但 比较 
公平 ) 。[MclIlroy，1990] 详 述 了 一 个 Newsqueak 程 序 ， 该 程序 将 震级 数 
当做 数据 流 处 理 ， 其 方法 在 本 质 上 类 似 于 sieve。 

















Newsqueak 已 经 用 于 实现 窗口 系统 ， 这 例证 了 能 从 线程 受益 的 那些 
交互 式 应 用 。NeWS 窗 口 系统 [Gosling，Rosenthal and Arden，1989] 是 另 
-个 用 带 有 线程 的 语言 编写 的 窗口 系统 的 例子 。NeWS 系 统 的 核心 是 一 
个 PostScript 解 释 占 ， 其 用 于 泻 染 文 本 和 图 像 。NeWS 窗 口 系统 自身 的 大 

部 分 是 用 PostScript 变 体 编写 的 ， 该 语言 包括 了 非 抢 占线 程 扩 展 。 





KANI = Concurrent ML [Reppy，1997] 文 持 线程 和 同步 通道 ， 这 
与 Chan 提 供 的 功能 很 相似 。 在 非 命令 式 Cnonimperative) 语言 中 实现 线 
程 ， 通 常 比 基 于 栈 的 命令 式 语言 更 为 容易 。 例 如 ， 在 Standard ML 中 没 
有 栈 ， 因 为 被 调用 者 的 生存 期 可 能 超过 调用 者 ， 因 此 不 需要 什么 特别 的 
设置 来 支持 线程 。 因 而 ，Concurrent ML 是 完全 用 Standard ML 实现 的 。 


Thread 和 Sem 实 现 中 使 用 MONITOR 和 _ENDMONITOR 函 数 来 划分 
代码 边界 的 想法 ， 来 自 于 [Cormack，1988]， 其 中 描述 了 用 于 UNIX 线 程 
的 一 个 类 似 但 稍 有 不 同 的 接口 。[Stevens，1992] 的 第 10 章 全 面 地 阐述 了 





mF 
$ qi 


和 信和 号 处 理 程序 ， 其 中 描述 了 不 同 UNIX 变 体 和 POSIX 标 准 之 间 的 


20.5 “习题 











20.1 二 值 信 号 量 通 党 称 之 为 锁 或 互 斥 量 ， 是 最 流行 的 信号 量 类 
型 。 为 锁 设 计 一 个 单独 的 接口 ， 其 实现 比 一 般 信 号 量 更 简单 。 请 注意 和 警 
报 一 竺 决 状态 。 


20.2 ”假定 线程 A 锁定 x 然后 尝试 锁定 y， 线 程 B 锁 定 y 然 后 尝试 锁定 
x。 这 些 线程 将 陷入 死 锁 : 在 B 解 锁 y 之 前 A 不 能 继续 执行 ， 在 A 解锁 x 之 
前 BB 不 能 继续 执行 。 扩 展 前 一 习题 对 锁 的 实现 ， 以 检测 这 些 价 单 类 型 的 
死 锁 。 





20.3 不 使 用 信号 量 ， 重 新 实现 thread.c 中 的 Chan 接 口 。 为 通道 设计 
个 适当 的 表示 ， 直 接 使 用 内 部 队列 和 线程 函数 ， 而 非 信号 量 函 数 。 请 
注意 警报 一 待 决 状态 。 设 计 一 个 测试 套件 ， 以 测量 这 种 可 能 更 为 高 效 的 
实现 所 市 来 的 好 处 。 对 于 修订 的 实现 ， 请 量化 应 用 程序 的 消息 活动 程 
度 ， 以 便 在 运行 时 产生 可 测量 的 差异 。 








20.4 ”设计 并 实现 一 个 异步 、 绥 冲 式 通讯 接口 ， 这 是 一 个 线程 间 消 
恩 通 讯 设 施 ， 其 中 发 送 方 并 不 等 待 消 妃 被 接收 ， 消 息 航 缓冲 起 来 ， 直 至 
被 接收 为 止 。 你 的 设计 应 该 允许 消息 的 生命 周期 长 于 其 发 送 线程 ， 即 ， 
线程 发 送 一 消息 消息 ， 然 后 在 消息 接收 之 前 线程 就 退出 了 。 腊 步 通 信 比 
Chan 同 步 通信 更 为 复杂 ， 因 为 它 必 须 处 理 对 缓冲 消 妃 的 存储 管理 和 更 多 
的 错误 条 件 ， 例 如 ， 需 要 提供 一 种 方法 ， 供 线程 判断 消 妃 是 否 已 经 被 接 
收 。 























20.5 ”Modula-3 支 持 条 件 变 量 (condition variable) 。 一 个 条 件 变量 


c 关 联 到 一 个 锁 m。 原 子 操作 sleep(m， ”加 导致 调用 线程 解锁 mm 并 在 c 上 等 
竺 。 调 用 线程 必须 已 经 锁定 了 m。wakeup(O 〇 导致 一 个 或 多 个 在 c 上 等 待 
的 线程 恢复 执行 ， 其 中 之 一 重新 锁定 m 并 从 其 对 sleep 的 调用 返回 。 
broadcast(c) 类 似 于 wakeup(c)， 但 所 有 在 c 上 睡眠 的 线程 都 恢复 执行 。 警 
报 一 待 决 状态 不 影响 阻塞 在 条 件 变量 上 的 线程 ， 除 非 线 程 调用 alertsleep 
而 不 是 sleep。 当 一 个 已 经 调用 alertsleep 的 线程 被 设置 为 警报 一 待 决 状 
态 ， 则 其 锁 m 并 引发 Thread_Alerted 异 常 。 设 计 并 实现 一 个 支持 条 件 变 量 
的 接口 ， 使 用 读者 在 习题 20.1 中 实现 的 锁 。 


if 








20.6 如果 你 的 系统 支持 非 阻塞 VO 系 统 调用 ， 使 用 它们 为 C 标 准 IO 
库 构 建 一 个 线程 安全 的 实现 。 即 ， 举 例 来 说 ， 当 一 个 线程 调用 fgetc 时 ， 
该 线程 等 待 输入 时 ， 其 他 线程 可 以 执行 钊 。 


20.7 ”设计 一 种 方法 ， 使 得 无 需 使 用 MONITOR 和 
_ENDMONITOR， 即 可 使 Thread 和 Sem 函 数 的 执行 具有 原子 性 。 提 示 : 
单一 的 全 局 临界 区 标志 是 不 够 的 。 读 者 将 需要 为 每 个 线程 设置 一 个 临界 
区 标志 ， 而 汇编 语言 代码 将 需要 修改 该 标志 。 请 务必 谨慎 ， 使 用 这 种 方 
法 很 容易 造成 一 些微 妙 的 错误 。 








20.8 扩展 Thread_new， 使 之 可 以 接受 指定 栈 长 度 的 可 选 参数 。 例 
如 ， 


t = Thread_new(..., "Stacksize", 4096, NULL); 
上 述 代码 将 创建 一 个 栈 长 度 为 4KB 的 线程 。 


20.9” 按 20.1 节 的 建议 ， 问 Thread 的 实现 添加 优先 级 支持 ， 以 支持 
少量 的 优先 级 。 修 改 Thread_init 和 Thread_new， 使 之 可 以 接受 指定 优先 
级 为 可 选 参数 。[Tanenbaum，1995] 摘 述 了 如 何 实 现 一 种 文 持 优先 级 的 


公平 调度 策略 。 


20.10 DCE 文 持 模板 ， 模 板 实 质 上 是 线程 属性 的 关联 表 。 在 用 
DCE 的 pthread_create 创 建 一 个 线程 时 ， 模 板 提 供 了 诸如 栈 长 度 和 优先 级 
这 样 的 属性 。 模 板 可 以 避免 在 线程 创建 调用 中 重复 同样 的 参数 ， 还 使 得 
可 以 在 线程 创建 位 置 以 外 之 处 指定 线程 属性 。 使 用 Table_T 为 Thread 接 
口 设计 一 种 模板 设施 ， 并 修改 Thread_new， 使 之 可 以 接受 一 个 模板 作为 
其 可 选 参 数 。 








20.11 ”在 共享 内 存 的 多 处 理 右 机 器 (如 Sequent) 上 实现 Thread 和 
Sem 接 口 。 与 20.3 节 详 述 的 实现 相 比 ， 这 种 实现 复杂 得 多 ， 因 为 此 时 线 
程 是 真正 在 多 处 理 器 上 并 发 执行 的 。 实 现 原子 操作 将 需要 某 种 形式 的 底 
层 自 旋 锁 机 制 ， 以 确保 对 存 取 共享 数据 结构 的 短 临 界 区 的 独占 访问 ， 就 
像 是 Thread 和 Sem 函 数 中 所 做 的 那样 。 

















20.12 ”在 海量 并 行 处 理 器 (Massively Parallel Processor, MPP) 上 
实现 Thread、Sem 和 Chan 接 口 ， 此 类 机 器 的 例子 如 Cray T3D， 由 2? 个 
DEC ALPHA 处 理 器 组 成 。 在 MPP 上 ， 每 个 处 理 器 有 自身 的 内 存 ， 有 某 
种 底层 机 制 (通常 实现 在 人 硬件 中 〉 供 一 个 处 理 器 访问 男 一 个 处 理 器 的 内 
存 。 访 习题 提出 的 挑战 之 一 是 ， 确 定 如 何 将 Thread、Sem 和 Chan 接 口 所 
偏爱 的 共享 内 存 模 型 映射 到 MPP 提 供 的 分 布 式 内 存 模型 上 。 


20.13 ”使 用 DCE 线 程 实现 Thread、Sem 和 Chan 接 口 。 请 务必 指明 
Thread_new 的 实现 接受 哪些 系统 相关 的 可 选 参数 。 


20.14 使 用 LWP 在 Solaris 2 上 实现 Thread、Sem 和 Chan 接 口 ， 根 据 
需要 为 Thread_new 提 供 可 选 参数 。 


20.15 ”使 用 POSIX 线 程 (参见 [Kleiman,， Shah and Smaalders, 


1996]) 实现 Thread、Sem 和 Chan 接 口 。 


20.16 ”使 用 Microsoft 的 Win32 线 程 接口 〈 参 见 [Richter，1995]) 实 
现 Thread、Sem 和 Chan 接 口 。 


20.17 ”如 果 读 者 能 够 使 用 SPARC 架 构 上 的 C 编 译 器 ， 如 ]cc [Fraser 
and Hanson，1995]， 请 修改 该 编译 器 使 之 不 使 用 SPARC 寄 存 器 窗口 ， 
这 可 以 消除 _swtch 中 的 ta 3 系统 调用 。 当 然 ， 读 者 也 需要 重新 编译 读者 
使 用 的 任何 库 。 测 量 在 运行 时 带 来 的 改进 。 提 醒 读 者 : 这 个 习题 是 一 个 
较 大 的 项 目 。 


20.18 Thread_new 必 须 分 配 一 个 栈 ， 因 为 大 多 数 编译 系统 假定 ， 
在 一 个 程序 开始 执行 时 ， 已 经 分 配 了 一 个 连续 的 栈 。 少 数 系 统 ， 如 
Cray-2， 以 内 存 块 为 单位 来 即时 分 配 栈 。 函 数 的 入 口 指令 序列 需要 在 当 
前 内 存 块 中 分 配 栈 帧 〈 如 果 放 得 下 ) ， 否 则 ， 需 要 分 配 一 个 新 的 足够 长 
的 内 存 块 ， 将 其 连接 到 当前 内 存 块 中 。 当 内 存 块 中 最 后 一 个 栈 帧 被 删除 
后 ， 函 数 的 退出 指令 序列 需要 解除 内 存 块 的 连接 并 释放 该 内 存 块 。 这 种 
方法 不 仅 简 化 了 线程 的 创建 ， 也 自动 地 检查 了 栈 液 出。 修改 某 个 C 编 译 
器 来 使 用 这 种 方法 ， 并 测量 其 好 处 。 类 似 前 一 道 习题 ， 读 者 将 需要 重新 
编译 你 使 用 的 任何 库 ， 这 个 习题 也 是 一 个 大 项 目 。 














[1] activation 引 自 activation record, 4874 M kay Rea KR 
示 ; AR GES activation record， 即 指 函 数 同时 被 多 次 调用 。 
一 一 译 者 注 

[2] ”这 个 仅 适 用 于 用 户 级 线程 ， 内 核 级 线程 是 不 受 1/0 阻 塞 影 响 


的 。 译 者 注 





附录 A 接口 摘要 


接口 摘要 按 字母 顺序 如 下 列 出 : 各 个 小 节 给 出 每 个 接口 的 名 称 及 其 
主要 类 型 (如果 有 的 话 ) 。“T 是 不 透明 的 X_T” 的 记 法 ， 表 示 接 口 X 导 出 
了 一 个 不 透明 指针 类 型 X_T， 在 描述 中 缩写 为 T。 如 采 接 口 会 公开 其 主 
要 类 型 ， 那 么 会 给 出 X_T 的 表示 。 


每 个 接口 的 摘要 会 按 字 母 顺 序 分 别 列 出 导出 的 变量 (不 包括 异常 ) 
后 接 导 出 的 函数 。 每 个 函数 的 原型 都 后 接 其 可 能 引发 的 异常 和 对 函数 的 
简要 描述 。 缩 写 cr.e. 和 ur.e. 分 别 代表 已 检查 的 运行 时 错误 和 未 检查 的 运 
行 时 错误 钙 。 





表 A-1 近 类别 综 述 了 本 书 中 的 各 个 接口 。 


表 A-1 本 书 中 的 各 个 接口 


基 fh 抽象 数据 类 型 /ADT 字符 串 算术 程 





线程 
Arena Array Atom AP Chan 
Arith ArrayRep Fmt MP Sem 
Assert Bit Str XP Thread 
Except List Text 
em Ring 

Seq 

Set 

E 


A.l AP 


传递 NULL 的 T 值 给 任何 AP 函 数 都 是 


T AP_add(T x, T y) 

T AP_addi(T x, long int y) 
返回 和 值 X+y。 

int AP_cmp(T x, T y) 


int AP_cmpi(T x, long int y) 


I 是 不 透明 的 AP_T 





己 检 查 的 运行 时 错误 。 


Mem_Faile 


Mem_Faile 


对 于 x<y、X=y、X>y， 分 别 返回 <0、=0、>0 的 整数 。 


T AP_div(T x, T y) 


T AP_divi(T x, long int y) 


Mem_Faile 


Mem_Faile 


返回 商 x / y， 参 见 Arith_div。y=0， 则 为 已 检查 的 运行 时 错误 。 


void AP_fmt(int code, va_list *app, 


Mem_Faile 


int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) 


一 个 Fmt 转 换 函 数 : 消耗 一 个 T， 并 按照 printf 的 %d 限 定 符 对 其 进行 格式 化 。 


是 NULL， 则 为 已 检查 的 运行 时 错误 。 


void AP_free(T *z) 





释放 *z， 并 将 其 清 零 。z 或 *z 为 NULL， 则 为 已 检查 的 运行 时 错误 。 


T AP_fromstr(const char *str, int base, char **end) Mem_Fail 





将 Str 解 释 为 base 基 数 下 的 一 个 整数 ， 








部 的 空格 ， 可 以 接受 一 个 可 选 的 符号 ， 




















并 返回 表示 结果 的 T。 在 处 理 过 程 中 ，# 
后 接 一 个 或 多 个 以 base 为 基数 的 数位 。 














36， 小 写 或 大 写字 母 解释 为 大 于 9 的 数位 。 如 果 end 不 为 NULL，*end 指 向 str 











结束 处 的 字符 。 如 果 str 不 表示 base 基 数 下 的 一 个 整数 ， 那 么 AP_fromstr 返 
并 将 *end 设 置 为 str 〈 如 果 end 不 是 NULL) 。str 为 NULL 或 base<2 或 base> 














已 检查 的 运行 时 错误 。 

T AP_lshift(T x, int s) Mem_Fail 
返回 x 左 移 s 个 比特 位 的 值 ， 空 出 的 比特 位 填 0， 结 果 的 符号 与 x 相 同 。s<9， 则 

T AP_mod(T x, T y) Mem_Fail 

long AP_modi(T x, long int y) Mem_Fail 
返回 x mod y， 参 见 Arith_mod。y=0， 则 为 已 检查 的 运行 时 错误 。 

T AP_mul(T x, T y) Mem_Fail 

T AP_muli(T x, long int y) Mem_Fail 
返回 乘积 x * yo 

T AP_neg(T x) Mem_Fail 
返回 -x。 

T AP_new(long int n) Mem_Fail 
分 配 和 返回 一 个 新 的 T， 其 值 初 始 化 为 n。 

T AP_pow(T x, T y, T p) Mem_Fail 
返回 xy 


mod p。 如 果 p=NULL， 返 回 xy 


。y<09， 或 p 不 是 NULL 且 p<2， 则 为 已 检查 的 运行 时 错误 。 
T AP_rshift(T x, int s) Mem_Fail 








返回 x 右 移 s 个 比特 位 的 结果 ， 空 出 的 比特 位 填 9， 结 果 的 符号 与 x 相同 。s<0， 


T AP_sub(T x, T y) Mem_Fail 
T AP_subi(T x, long int y) Mem_Fail 
返回 差 值 x - yo 


long int AP_toint(T x) 
返回 一 个 Long 型 值 ， 其 符号 与 X 相 同 ， 其 绝对 值 为 |x| mod LONG_MAX + 1. 
char *AP_tostr(char *str, int size, int base, T x) Mem_Fail 
用 x 在 base 基 数 下 的 字符 表示 来 填充 str[0..size - 1]， 并 返回 str。 如 果 
AP_tostr 为 其 分 配 空 间 。 当 base>19 时 ， 大 写字 母 用 于 表示 大 于 9 的 数位 。 妨 
是 NULL 但 容量 太 小 ， 或 base<2 或 base>36， 则 为 已 检查 的 运行 时 错误 。 























A.2 Arena 


T 是 不 透明 的 Arena_T 


回 任 何 Arena 函 数 传递 的 参数 nbytes<0 或 工 值 为 NULL， 均 为 已 检查 
的 运行 时 错误 。 


void *Arena_alloc(T arena, long nbytes, Arena— 
const char *file, int line) 
在 内 存 池 中 分 配 nbytes 个 字 节 并 返回 一 个 指针 ， 指 向 第 一 个 字 节 。 分 配 的 nby 
是 未 初始 化 的 。 如 果 Arena_alloc 引 发 Arena_Failed 异 常 ， 则 将 file 和 1i 
普 的 源 代 码 位 置 报告 。 


void *Arena_calloc(T arena, long count, Arena. 
































long nbytes, const char *file, int line) 
在 内 存 池 中 为 一 个 count 个 元 素 的 数组 分 配 空间 ， 每 个 数组 元 素 占 nbytes 字 于 
个 指针 指向 第 一 个 元 素 。count<9 则 造成 已 检查 的 运行 时 错误 。 数 组 的 各 个 
始 化 的 。 如 果 Arena_calloc 引 发 Arena_Failed 异 常 ， 则 将 file 和 1ine 作 
源 代 码 位 置 报告 。 
void Arena_dispose(T *ap) 
释放 *ap 中 所 有 的 空间 ， 释 放 内 存 池 自身 ， 并 将 *ap 清 零 。ap 或 *ap 为 NULL，! 
void Arena_free(T arena) 


释放 内 存 池 中 所 有 












































的 空间 ， 即 自 上 一 次 调用 Arena_free 以 来 所 有 分 配 的 空间 。 





T Arena_new(void) Arena 


分 配 、 初 始 化 并 返回 一 个 新 的 内 存 池 。 


A.3 Arith 


int Arith_ceiling(int x, int y) 

返回 不 小 于 x/y 实 数 商 的 最 小 整数 。y=0， 则 为 未 检查 的 运行 时 错误 。 
int Arith_div(int x, int y) 

返回 x/y， 若 有 实数 z 使 得 z * y = X， 返 回 值 即 不 大 于 实数 z 的 最 大 整数 。 向 
例如 ，Arith_div(-13，5) 返 回 -3。y=0， 则 为 未 检查 的 运行 时 错误 。 





int Arith_floor(int x, int y) 
返回 不 大 于 x/y 实 数 商 的 最 大 整数 。y=0， 则 为 未 检查 的 运行 时 错误 。 
int Arith max(int x, int y) 
返回 max(x，y)。 
int Arith_min(int x, int y) 
返回 min(x，y)。 
int Arith mod(int x, int y) 
返回 x - y * Arith_div(x, y), 例如 ，Arith_mod(- 13，5) 返 回 2。 


A.4 Array 


T 是 不 透明 的 Array_T 


数组 索引 从 0 到 N-1， 其 中 TV 是 数组 的 长 上 度 。 空 数组 没有 元 素 。 问 
任何 Array 函 数 传递 为 NULL 的 工 值 都 是 已 检查 的 运行 时 错误 。 





T Array_copy(T array, int length) Mem_Fa 
创建 并 返回 一 个 新 的 数组 ， 其 中 包含 array 的 前 length 个 元 素 。 如 果 length 








void Array_free(T *array) 


释放 *array 并 将 其 清 零 。 如 果 array 或 *array 是 NULL， 则 是 已 检查 的 运行 此 





void *Array_get(T array, int 工 ) 
返回 指向 第 i 个 数组 元 素 的 指针 。i<0 或 >=N， 则 为 已 检查 的 运行 时 错误 ， 其 中 
int Array_length(T array) 
返回 array 中 元 素 的 数目 。 
T Array_new(int length, int size) Mem_ 
分 配 、 初 始 化 并 返回 一 个 新 的 数组 ， 由 length 个 元 素 组 成 ， 每 个 元 素 长 度 为 S 
各 个 元 素 都 被 清 零 。length<0 或 size<0， 则 为 已 检查 的 运行 时 错误 。 



































void *Array_put(T array, int i, void *elem) 








从 elem 复 制 Array_size(array) 个 字 节 到 array 中 第 于 个 元 素 并 返回 elem。 
NULL 或 <0 或 >N， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 array 的 长 度 。 

void Array_resize(T array, int length) Mem 
将 数组 中 元 素 的 数目 改 为 length。 如 果 Length 大 于 原来 的 长 度 ， 过 多 的 元 素 
length<0， 则 造成 已 检查 的 运行 时 错误 。 











int Array_size(T array) 


返回 array 中 元 素 的 长 度 ， 按 字 节 计算 。 





A.s ArrayRep 


T+ Array_T 


typedef struct T { 


int length; int size; char *array; } *T; 








改变 IT 实例 中 的 字段 ， 属 于 未 检查 的 运行 时 错误 。 


void ArrayRep_init(T array, int length, 
int size, void *ary) 
将 array 中 的 各 个 字段 初始 化 为 length、size 和 ary。 如 果 lengthz0 有 ary 
Mlength=0Hary#null, 或 size<06， 都 是 已 检查 的 运行 时 错误 。 用 其 他 方 
实例 ， 属 于 未 检查 的 运行 时 错误 。 











A.6 Assert 


assert(e) 
如 果 e 为 9， 则 引发 Assert_Failed 异 常 。 语 法 上 ，assert(e) 是 一 个 表达 式 
assert .h 头 文件 时 ， 已 经 定义 了 NDEBUG， 则 断言 被 禁用 。 





A.7 Atom 





向 任何 Atom 函 数 传递 值 为 NULL 的 str， 都 是 已 检查 的 运行 时 错误 。 
修改 原子 ， 属 于 未 检查 的 运行 时 错误 。 





int Atom_length(const char *str) 

返回 原子 str 的 长 度 。 如 果 Str 不 是 原子 ， 则 造成 已 检查 的 运行 时 错误 。 
const char *Atom_new(const char *str, int len) 

返回 对 应 于 str[0,.,len - 1] 的 原子 ， 如 有 必要 则 创建 一 个 原子 。len<0, ! 


const char *Atom_string(const char *str) 























返回 Atom_new(str, strlen(str)). 
const char *Atom_int(long n) 


返回 对 应 于 n 的 十 进 制 字符 串 表 示 的 原子 。 

















A.8 Bit 


T 是 不 透明 的 Bit_T 








位 向 量 中 的 各 个 比特 位 按 0 到 N-1 编 号 ， 其 中 N 是 该 向 量 的 长 度 。 向 
任何 Bit 函 数 传递 的 T 值 为 NULL， 均 为 已 检查 的 运行 时 错误 
(Bit union、Bit_inter、Bit minus 和 了 Bit_diff 除 外) 。 


void Bit_clear(T set, int lo, int hi) 
清除 set 中 1o 到 hi 的 各 个 比特 位 。10o>hi 或 l0<0 或 10>N 或 hi<0 或 hi>N， 均 》 
查 的 运行 时 错误 ， 其 中 N 为 set 的 长 度 。 
int Bit_count(T set) 
返回 set 中 置 位 比特 位 数目 。 
T Bit_diff(T s, T t) Mem_Failed 
返回 s 和 t 的 对 称 差 s / t: s 和 t 的 异 或 。 如 果 S=NULL 或 t=NULL， 则 表示 空 集 
NULL 且 t=NULL， 或 s 和 t 长 度 不 同 ， 则 为 已 检查 的 运行 时 错误 
int Bit_eq(T s, T t) 
如 果 s=t， 则 返回 1， 和 否则 返回 9。 如 果 s 和 t 长 度 不 同 ， 则 为 已 检查 的 运行 时 错 
void Bit_free(T *set) 
释放 *set， 并 将 其 清 零 。set 或 *set 是 NULL， 则 造成 已 检查 的 运行 时 错误 。 
int Bit_get(T set, int n) 
返回 比特 位 n 的 值 。n<9 或 nzN， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 set 的 长 度 
T Bit_inter(T s, T t) Mem_Failed 
返回 s n t: s 和 t 的 按 位 与 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_diff。 
int Bit_length(T set) 
返回 set 的 长 度 。 



































int Bit_leq(T s, T t) 

如 果 s St， 则 返回 1， 否 则 返回 9。 已 检查 的 运行 时 错误 ， 请 参见 Bit_eq。 
int Bit_1t(T s, T t) 

如 果 SsCt， 则 返回 1， 和 否则 返回 9。 已 检查 的 运行 时 错误 ， 请 参见 Bit_ed。 




















void Bit_map(T set, 
void apply(int n, int bit, void *cl), void *cl) 
对 set 中 从 0 到 N- 1 的 每 个 比特 位 调用 apply(n，bit，cl)， 其 中 N 是 set 的 
apply 对 set 的 修改 ， 将 影响 到 接 下 来 调用 apply 时 bit 参 数 的 值 。 











T Bit_minus(T s, T t) Mem_Failed 
返回 s- t: Ss 和 一 t 的 按 位 与 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_djiff。 
T Bit_new(int length) Mem_Failed 











创建 并 返回 一 个 长 度 为 length 的 位 向 量 ， 所 有 比特 位 均 为 90。1Length<0， 则 j 
void Bit_not (T set, int lo, int hi) 

对 set 中 10 到 hi 的 各 个 比特 位 取 反 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_cleal 
int Bit_put(T set, int n, int bit) 

Bit_put 将 集合 中 的 比特 位 n 设 置 为 bit， 并 返回 该 比特 位 的 原 值 。bit<0 或 b 

n<6 或 nzN， 均 为 已 检查 的 运行 时 错误 ， 其 中 N 是 set 的 长 度 。 
void Bit_set(T set, int lo, int hi) 

将 set 中 的 比特 位 lo 到 hi 置 位 。 己 检查 的 运行 时 错误 ， 请 参见 Bit_clear。 
T Bit_union(T s, T t) Mem_Failed 

返回 sUt: s 和 t 的 按 位 或 。 己 检查 的 运行 时 错误 ， 请 参见 Bit_diff。 



































A.9 Chan 


I 是 不 透明 的 Chan_T 


向 任何 Chan 函 数 传递 的 T 值 为 NULL， 或 在 调用 Thread init 之 前 调用 





任何 Chan 函 数 ， 均 为 已 检查 的 运行 时 错误 。 


T Chan_new(void) 





Mem_Faile 


创建 、 初 始 化 并 返回 一 个 新 的 通道 。 


int Chan_receive(T c, 


void *ptr, int size) Thread_Al 


等 待 一 个 对 应 Chan_send 操 作 发 出 数据 ， 然 后 从 发 送 来 的 数据 中 复制 不 超过 s: 


ptr 中 ， 并 返回 复 氏 








出 的 字 节 数 。ptr=NULL 或 size<0， 均 为 已 检查 的 运行 时 错 


int Chan_send(T c, const void *ptr, int size Thread_Al 
等 待 一 个 对 应 Chan_receive 操 作 进 入 接收 状态 ， 然 后 从 ptr 中 复制 不 超过 si 
接收 方 ， 并 返回 复制 的 字 节 数 。 已 检查 的 运行 时 错误 ， 请 参见 Chan_receive 











A.10 Except 


TE! AExcept_T 


typedef struct T { char *reason; } T; 


TRY OMIA, SMe EAM o ELSES) A 
的 。 


TRY S 


EXCEPT(e 


EXCEPT(e 


) Sn 


ELSE S 


END—TRY 


TRY S 


FINALLY S 


END_TRY 


void Except_raise(const T *e, const char *file, int line) 
在 源 代码 位 置 file 和 1ine 处 引发 异常 *e。 如 果 e=NULL， 则 为 已 检查 的 运行 下 
捕获 的 异常 ， 将 导致 程序 终止 。 

RAISE(e) 
引发 异常 e。 














RERAISE 














ak 





重新 引发 导致 异常 处 理 程序 执行 的 异常 。 











a 


RETURN 


RETURN expression 


是 用 于 TRY 语句 内 部 的 返回 语句 。 在 TRY 语句 内 使 用 C 语 言 的 返回 语句 ， 属 于 未 





A.11 Fmt 


TEU AFmt_T 


typedef void (*T)(int code, 


va_list *app, int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision) 


定义 了 转换 函数 的 类 型 ， 当 格式 串 中 出 现 转 换 限定 符 时 ， 由 Fmt 函 


数 调用 相关 联 的 转换 函数 。 在 这 里 和 下 文中 ， 都 是 调用 Put(c，d) 来 输出 
各 个 被 格式 化 的 字符 c。 表 14-1 汇 总 了 最 初 定义 的 转换 限定 符 集 合 。 问 
任何 Fmt 函 数 传递 的 put、buf 或 fmt 为 NULL， 或 格式 串 使 用 了 没有 关联 
转换 函数 的 转换 限定 符 ， 都 是 已 检查 的 运行 时 错误 。 


Char 


void 


void 


void 


void 


void 





*Fmt_flags = "-+0" 
指向 转换 限定 符 中 可 能 出 现 的 标志 字符 。 


Fmt_fmt(int put(int c, void *cl), void *cl, 





const char *fmt, ...) 
根据 格式 串 fmt， 格 式 化 并 输出 可 变 部 分 的 参数 。 


Fmt_fprint(FILE *stream, const char *fmt, ...) 





Fmt_print(const char *fmt, ...) 

根据 fmt 格 式 化 并 输出 可 变 部 分 的 参数 ，Fmt_fprint 写 出 到 流 ， 而 Fmt_prir 
Fmt_putd(const char *str, int len, 

int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 


Fmt_puts(const char *str, int len, 


int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 
根据 Fmt 的 默认 值 〈 参 见 表 14-1) Alflags. width#llprecision# (i, Kx 
str[0..len - 1] 中 转换 过 的 数值 〈 使 用 Fmt_putd 输 出 ) 或 字符 串 〈 使 用 F 
出 )。 如 果 str=NULL， 或 len<0， 或 flags=NULL， 均 为 已 检查 的 运行 时 错 i 





T Fmt_register(int code, T cvt) 


将 cvt 关 联 到 格式 符 code， 并 返回 此 前 设 定 的 转换 函数 。 如 果 code<0 或 code 


int Fmt_sfmt(char *buf, int size, F 
const char *fmt, ...) 
根据 fmt， 将 参数 的 可 变 部 分 格式 化 到 buf [0. .size - 1] 中 ， 并 添加 一 个 ( 
返回 buf 的 长 度 

fz] 





。 如 果 Size<0， 则 为 已 检查 的 运行 时 错误 。 如 果 需 要 输出 的 字符 数目 大 
Fsize - 1， 则 引发 Fmt_0Overf1lLow 异 常 。 





char *Fmt_string(const char *fmt, ...) 
根据 fmt， 将 参数 的 可 变 部 分 格式 化 为 一 个 0 结尾 字符 串 


void Fmt_vfmt(int put(int c, void *cl), void *cl, 











H 
MK 
Si 
E 
NG 
Nt 
x 

uo 





const char *fmt, va_list ap) 


参见 Fmt_fmt， 本 函数 从 可 变 参数 列表 ap 获取 参数 。 


int Fmt_vsfmt(char *buf, int size, 

const char *fmt, va_list ap) 

参见 Fmt_sfmt， 本 函数 从 可 变 参数 列表 ap 获取 参数 。 
char *Fmt_vstring(const char *fmt, va_list ap) 


参见 Fmt_string， 本 函数 从 可 变 参 数列 表 ap 获 取 参 数 。 


A.12 List 


TE ANList_T 


typedef struct T *T; 
struct T { T rest; void *first; }; 


所 有 的 List 函 数 都 可 以 接受 1Ist 参 数值 为 NULL， 并 将 其 解释 为 空 链表 。 











T List_append(T list, T tail) 
将 tail1 追 加 到 List 并 返回 List。 如 果 1List=NULL，List_append 返 回 tai- 
T List_copy(T list) Mem_Failed 
创建 并 返回 List 的 一 个 副本 《〈 浅 层 复制 ) 。 
void List_free(T *list) 
释放 *1ist 并 将 其 清 零 。 如 果 List=NULL， 则 为 已 检查 的 运行 时 错误 。 
int List_length(T list) 
返回 1ist 中 元 素 的 数目 。 
T List_list(void *x, ...) Mem_Failed 
创建 并 返回 一 个 链表 ， 其 元 素来 自 参数 的 可 变 部 分 ， 直 至 遇 到 第 一 个 NULL 指 针 
void List_map(T list, 





PE 





























void apply(void **x, void *cl), void *cl) 
对 于 1ist 中 的 每 个 元 素 p， 调 用 apply (&p->first，cl)。 如 果 apply 修 改 
为 未 检查 的 运行 时 错误 。 

T List_pop(T list, void **x) 
将 list ->first 赋 值 给 *x《〈 如 果 x 不 是 NULL) ， 释 放 1ist， 并 返回 list - 
list=NULL，List_pop 返 回 NULL， 并 不 改变 *x。 





T List_push(T list, void *x) Mem_Faile 
将 一 个 包含 x 的 新 元 素 添加 到 1ist 的 前 端 ， 并 返回 新 链表 。 

T List_reverse(T list) 
list PHA hrcA wa], FRE RH a BER 

void * *List_toArray(T list, void *end) Mem_Fail 
BZE—SNF1* CRIN, AAlist PHN CR, FREES 


组 中 第 N 个 元 素 设 置 为 end。 























A.13 Mem 





问 Mem 接 口中 任何 函数 或 宏 传递 的 nbytes<0， 则 为 已 检查 的 运行 时 
错误 。 


ALLOC(nbytes) Mem_Fai 
分 配 nbytes 个 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 分 配 的 nbytes 个 字 节 是 未 


参见 Mem_alloc。 




















CALLOC(count, nbytes) Mem_Fai 
为 一 个 count 个 元 素 的 数组 分 配 空间 ， 每 个 数组 元 素 占 nbytes 字 节 ， 并 返回 一 
向 第 一 个 元 素 。count<6 则 造成 已 检查 的 运行 时 错误 。 各 个 元 素 都 被 清 零 。 参 
FREE(ptr ) 
WRptrAZENULL, Feptr, Mpt. ENKAR, ptre RELV 


void *Mem_alloc(long nbytes, Mem_Fa 




















const char *file, int line) 
分 配 nbytes 个 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 分 配 的 nbytes 个 字 节 是 未 
如 果 Mem_alloc 引 发 Mem_Failed 异 常 ， 则 将 file 和 1ine 作 为 出 错 的 源 代码 























void *Mem_calloc(long count, long nbytes, Mem_F 
const char *file, int line) 
为 一 个 count 个 元 素 的 数组 分 配 空间 ， 每 个 数组 元 素 占 nbytes 字 节 ， 并 返回 一 
向 第 一 个 元 素 。count<9 则 造成 已 检查 的 运行 时 错误 。 各 个 元 素 都 被 清 零 ， 这 
指针 初始 化 为 NULL 或 将 浮 点 值 初始 化 为 9.0。 如 果 Mem_cal1loc 引 发 Mem_Fai 
则 将 file 和 1ine 作 为 出 错 的 源 代码 位 置 报告 。 

void Mem_free(void *ptr, const char *file, int line) 


如 果 ptr 不 是 NULL， 则 释放 ptr。 如 果 ptr 指 针 不 是 此 前 调用 Mem 分 配 函 数 返 匠 
































造成 未 检查 的 运行 时 错误 。 接 口 的 实现 可 使 用 file 和 1ine 来 报告 内 存 使 用 错 


void *Mem_resize(void *ptr, long nbytes, Mem. 


NEW(p ) 
NEWO(p) 


const char *file, int line) 

变更 ptr 指 向 的 内 存 块 的 长 度 ， 使 之 包含 nbytes 字 节 ， 并 返回 指向 新 内 存 块 第 
的 指针 。 如 果 nbytes 大 于 原来 的 内 存 块 的 长 度 ， 新 增 的 字 节 将 是 未 初始 化 的 。 
小 于 原来 的 内 存 块 的 长 度 ， 则 原来 的 内 存 块 中 仅 有 前 nbytes 个 字 节 会 出 现在 间 
如 果 Mem_resize 引 发 Mem_Failed 异 常 ， 则 将 file 和 1line 作 为 出 错 的 源 代 丰 
告 。 如 果 ptr=NULL， 则 为 已 检查 的 运行 时 错误 ， 如 果 ptr 指 针 不 是 此 前 调用 M 
数 返 回 的 ， 则 为 未 检查 的 运行 时 错误 。 




















Mem. 

Mem. 
分 配 一 个 足够 大 、 可 容纳 *p 的 内 存 块 ， 将 p 设 置 为 该 内 存 块 的 地 址 ， 并 返回 该 
将 所 分 配 内 存 块 的 各 个 字 节 清 零 ， 而 NEW 分 配 的 内 存 块 则 不 进行 初始 化 ， 各 个 
是 未 初始 化 的 。 两 个 宏 都 只 对 ptr 求 值 一 次 。 





RESIZE(ptr, nbytes) Mem 


变更 ptr 指 向 的 内 存 块 的 长 度 ， 使 之 包含 nbytes 字 节 ， 将 ptr 重 新 指向 调整 大 
存 块 ， 并 返回 该 内 存 块 的 地 址 。 作 为 表达 式 ，ptr 会 被 求 值 多 次 。 参 见 Mem_re 


A.14 MP 


TE) AMP_T 


typedef unsigned char *T 





MP 函数 可 以 执行 n-bit 有 符号 和 无 符号 算术 ， 其 中 n 初 始 化 为 32， 可 
以 通过 MP set 修改。 名 称 以 ua 或 mi 结尾 的 函数 ， 执 行 无 符号 算术 ， 其 他 
函数 执行 有 符号 算术 。MP 函 数 会 在 引发 MP_Overflow 或 
MP_DivideByZero 异 党 之 前 计算 其 结果 。 回 任何 MP 函数 传递 为 NULL 的 
T 值 都 是 已 检查 的 运行 时 错误 。 向 任何 MP 函数 传递 太 小 的 T， 都 是 未 检 
查 的 运行 时 错误 。 





MP_add(T z, T x, T y) 
MP_addi(T z, T x, long y) 
MP_addu(T z, T x, T y) 


4H AAA 
= = 三 三 


MP_addui(T z, T x, unsigned long y) 
将 z 设 置 为 x + y 并 返回 z。 

T MP_and(T z, T x, T y) 

T MP_andi(T z, T xX, unsigned long y) 
将 z 设 置 为 x 与 y 的 按 位 与 结果 ， 并 返回 z。 

T MP_ashift(T z, T x, int s) 
将 z 设 置 为 x 右 移 s 个 比特 位 的 结果 ， 并 返回 z。 空 出 的 比特 位 用 x 的 符号 位 填充 . 
则 为 已 检查 的 运行 时 错误 。 

int MP_cmp(T x, T y) 














int MP_cmpi(T x, long y) 


int MP_cmpu(T x, T y) 
int MP_cmpui(T x, unsigned long y) 
对 于 X<y、Xx=y、X>y， 分 别 返回 <9、=0、>0 的 整数 。 
T MP_cvt(int m, T z, T x) 
T MP_cvtu(int m, T z, T x) 
将 x 缩 窗 或 加 宽 为 mn-bit 的 有 符号 或 无 符号 整数 ， 并 赋值 给 z， 最 终 返 回 Z。 如 有 





已 检查 的 运行 时 错误 。 
MP_div(T z, T x, T y) MP_Overfl 
MP_divi(T z, T x, long y) MP_Overfl 


MP_divu(T z, T x, T y) 


4H AAA 


MP_divui(T z, T x, unsigned long y) MP_Overflow, MP_DivideByZ 
将 z 设 置 为 x</y， 并 返回 z。 处 理 有 符号 运算 的 函数 向-% 舍 入 ， 参 见 Arith_di\ 


void MP_fmt(int code, va_list *app, 


























int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 
void MP_fmtu(int code, va_list *app, 

int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

DEEP SE mtr RR. SEPT PEM, FRR Uprinttey 

的 风格 ， 将 其 格式 化 。b<2 或 D>236，app 或 flags 为 NULL， 均 为 已 检查 的 运行 
T MP_fromint(T z, long v) 











M 
T MP_fromintu(T z, unsigned long u) M 
这 两 个 函数 将 z 设 置 为 v 或 u， 并 返回 z。 
T MP_fromstr(T z, const char *str, int base, char **end) M 
将 str 解 释 为 Dase 基 数 下 的 一 个 整数 ， 将 z 设 置 为 该 整数 ， 并 返回 z。 参 见 AP_ 
T MP_lshift(T z, T x, int s) 
将 z 设 置 为 x 左 移 s 个 比特 位 的 结果 ， 并 返回 z。 空 出 的 比特 位 用 0 填充 。s<0， I 























T MP_mod(T z, T x, T y) 


将 z 设 置 为 x mod y 并 返回 z。 癌 -% 舍 入 ， 参 见 Arith_mod。 


long MP_modi(T x, long y) 


返回 x mod y。 问 -w 舍 入 ， 参 见 Arith_mod。 


T MP_modu(T z, T x, T y) 
将 z 设 置 为 x mod y 并 返回 z。 
unsigned long MP_modui(T x, 
unsigned long y) 
返回 x mod y. 
T MP_mul(T z, T x, T y) 
将 z 设 置 为 x * y 并 返回 z。 
T MP_mul2(T z, T x, T y) 
T MP_mul2u(T z, T x, T y) 
将 z 设 置 为 x * y 的 " 双 倍 长 结果 "并 返回 z， 
T MP_muli(T z, T x, long y) 





T MP_mulu(T z, T x, T y) 
T MP_mului(T z, T x, unsigned long y) 
将 z 设 置 为 x*y， 并 返回 z。 
T MP_neg(T z, T x) 
将 z 设 置 为 -x 并 返回 z。 
T MP_new(unsigned long u) 
创建 并 返回 一 个 T 实 例 ， 其 值 初始 化 为 u。 
T MP_not(T z, T x) 
将 z 设 置 为 ~x 并 返回 z。 
T MP_or(T z, T x, T y) 





T MP_ori(T z, T x, unsigned long y) 
将 z 设 置 为 x 与 y 的 按 位 或 结果 ， 并 返回 z。 








z 有 2n 个 比特 位 。 





T MP_rshift(T z, T x, int s) 

将 z 设 置 为 x 右 移 s 个 比特 位 的 结果 ， 并 返回 z。 空 出 的 比特 位 用 0 填充 。s<0,， J 
int MP_set(int n) 

将 MP 重 置 为 执行 n-bit 算 术 。n<2， 则 为 已 检查 的 运行 时 错误 。 
T MP_sub(T z, T x, T y) 














T MP_subi(T z, T x, long y) 
T MP_subu(T z, T x, T y) 
T MP_subui(T z, T x, unsigned long y) 
将 z 设 置 为 X-y， 并 返回 z。 
long int MP_toint(T x) 
unsigned long MP_tointu(T x) 
将 x 转换 为 long int 或 unsigned long 返回 。 
char *MP_tostr(char *str, int size, int base, T x) 
用 x 在 基数 base 下 的 字符 串 表示 (0 字符 结尾 〉 填充 str[0..size - 1], 并 
如 果 str=NULL，MP_tostr， 和 忽略 Size 并 为 该 字符 串 分 配 空间 。 参 见 AP_tot 























T MP_xor(T z, T x, T y) 
T MP_xori(T z, T x, unsigned long y) 
将 z 设 置 为 x 与 y 按 位 异 或 的 结果 ， 并 返回 z。 





A.15 Ring 


T 是 不 透明 的 Ring_T 


环 索 引 从 0 到 N-1， 其 中 NN 是 环 的 长 度 。 空 坏 没有 元 系 。 可 以 在 环 中 
任何 位 置 添加 或 删除 指针 ， 环 会 目 动 扩 展 。 旋 转 环 将 改变 其 起 点 。 回 任 
何 Ring 函 数 传递 为 NULL 的 T 值 ， 均 为 已 检查 的 运行 时 错误 。 





void *Ring_add(T ring, int pos, void *x) 


在 环 中 位 置 








pos 插 入 x 并 返回 x。 位 置 标 识 了 元 素 之 间 的 点 ， 参 见 Str 接 口 。pos<-N 或 
pos>N+1， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 ring 的 长 度 。 


void *Ring_addhi(T ring, void *x) 





void *Ring_addlo(T ring, void *x) 
将 x 添 加 到 ring 的 高 端 〈 索 引 N-1) 或 低 端 〈 索 引 9) 并 返回 x 
void Ring_free(T *ring) 
释放 *ring 并 将 其 清 零 。 如 果 ring 或 *ring 为 NULL， 则 造成 已 检查 的 运行 时 和 
int Ring_length(T ring) 
返回 ring 中 元 素 的 数目 。 
void *Ring_get(T ring, int i) 


返回 ring 中 第 i 个 元 素 。i<0 或 >N， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 rint 








T Ring_new(void) 


创建 并 返回 一 个 空 





void *Ring_put(T ring, int i, void *x) 
将 ring 中 第 i 个 元 素 改 为 x， 并 返回 原 值 。 已 检查 的 运行 时 错误 ， 请 参见 Ring_ 


void *Ring_remhi(T ring) 











void *Ring_remlo(T ring) 

删除 并 返回 ring 高 端 (索引 N-1) 或 低 端 (索引 0)〉 处 的 元 素 。 如 果 ring 为 空 
void *Ring_remove(T ring, int 1) 

删除 并 返回 ring 中 的 元 素 1。i<0 或 izN， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 
T Ring_ring(void *x, ...) 

创建 并 返回 一 个 环 ， 其 元 素来 自 参 数 的 可 变 部 分 ， 直 至 遇 到 第 一 个 NULL 指 针 大 


void Ring_rotate(T ring, int n) 























将 ring 的 起 点 向 左 (n<0) 或 向 右 (n20) 旋转 n 个 元 素 。 如 果 |n|>N， 则 为 E 


A.16 Sem 


I 是 不 透明 的 Sem_T 


typedef struct T { int count; void *queue; } T; 


BREST BAIN FBC, BUI E Sem ee Be A oR INT SE 
例 ， 均 为 未 检查 的 运行 时 错误 。 回 任何 Sem 函 数 传递 的 T 值 为 NULL， 或 
在 调用 Thread_init 之 前 调用 任何 Sem 函 数 ， 均 为 已 检查 的 运行 时 错误 。 











LOCK 语 句 的 语法 如 下 ，S 和 m 分 别 表 示 语 句 和 一 个 T 实 例 。 


LOCK(m 


END_LOCK 





m 被 锁定 ， 接 下 来 执行 语句 S$， 而 后 m 被 解锁 。LOCK 可 能 引发 
Thread Alerted 异 常 。 


void Sem_init(T *s, int count) 


将 s->count 设 置 为 count。 对 同一 T 实 例 多 次 调用 Sem_init， 是 未 检查 的 运 


Sem_T *Sem_new(int count) 
创建 并 返回 一 个 T 实 例 ， 其 count 字 段 初始 化 为 count。 
void Sem_wait(T *s) 
调用 线程 进入 等 待 状态 ， 直 至 s->count>0， 接 下 来 将 s->count 减 1。 


void Sem_signal(T *s) 





将 s->count 加 1. 


A.17 Seq 


I 是 不 透明 的 Seq_T 


序列 索引 从 0 到 N-1， 其 中 N 是 序列 的 长 度 。 空 序列 没有 元 素 。 可 以 
在 序列 低 端 《索引 0) 或 高 端 〈 索 引 N-1) 处 添加 或 删除 指针 ， 序 列 会 目 
动 扩展 。 向 任何 Seq 函 数 传递 的 T 值 为 NULL， 均 为 已 检查 的 运行 时 错 
误 。 





void *Seq_addhi(T seq, void *x) 
void *Seq_addlo(T seq, void *x) 

将 x 添 加 到 seq 的 高 端 或 低 端 并 返回 X。 
void Seq_free(T *seq) 

释放 *seq 并 将 其 清 零 。 如 果 seq 或 *seq 是 NULL， 则 为 已 检查 的 运行 时 错误 。 
int Seq_length(T seq) 

返回 seq 中 元 素 的 数目 。 
void *Seq_get(T seq, int i) 

返回 seq 中 的 第 i 个 元 素 。i<0 或 i>2N， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 seq 
T Seq_new(int hint) 

创建 并 返回 一 个 空 序列 。hint 是 对 该 序列 最 大 长 度 的 估计 。 如 果 hint<9， 则 ; 
void *Seq_put(T seq, int i, void *x) 

将 seq 中 第 i 个 元 素 改 为 x:， 并 返回 原 值 。 已 检查 的 运行 时 错误 ， 请 参见 Seq_gt 


void *Seq_remhi(T seq) 























void *Seq_remlo(T seq) 
删除 并 返回 seq 高 端 或 低 端的 元 素 。 如 果 sed 为 空 ， 则 为 已 检查 的 运行 时 错误 。 
T Seq_seq(void *x, ...) 

















创建 并 返回 一 个 序列 ， 其 元 素来 自 参数 的 可 变 部 分 ， 直 至 遇 到 第 一 个 NULL 指 针 


A.18 Set 


TI 是 不 透明 的 Set_T 





同 任何 Set 函 数 传递 的 T 值 或 成 员 值 为 NULL， 均 为 已 检查 的 运行 时 
错误 (Set_diff、Set_inter、Set_minus 和 Set_union| 除 外 ， 这 些 隙 数 将 T 的 
NULL 值 解释 为 空 集 ) 。 


T Set_diff(T s, T t) 

返回 S 和 t 的 对 称 差 s / t: s 和 t 的 对 称 差 是 一 个 集合 ， 其 成 员 只 出 现在 s 中 或 1 

如 果 s 和 t 均 为 NULL， 或 二 者 均 非 NULL 但 cmp 和 hash 函 数 不 同 ， 则 造成 已 检查 
void Set_free(T *set) 

释放 *set， 并 将 其 清 零 。set 或 *set 是 NULL， 则 造成 已 检查 的 运行 时 错误 。 
T Set_inter(T s, T t) 

返回 s 和 t 的 交集 snt: 其 成 员 同 时 出 现在 s 和 t 中 。 已 检查 的 运行 时 错误 ， 请 参 
int Set_length(T set) 

返回 set 中 元 素 的 数目 。 


void Set_map(T set, void apply(const void *member, void *cl), voic 








dS 








对 set 的 每 个 成 员 member 调 用 apply (member，cl)。 如 果 apply 修 改 set， 
int Set_member(T set, const void *member) 

如 果 member 为 set 的 成 员 ， 则 返回 1， 和 否则 返回 0。 
T Set_minus(T s, T t) 

返回 sS 和 t 的 差 集 s - t: 其 成 员 只 出 现在 s 中 ， 不 出 现在 t 中 。 已 检查 的 运行 时 


T Set_new(int hint, 





int cmp(const void *x, const void *y), 


unsigned hash(const void *x)) 





创建 、 初 始 化 并 返回 一 个 空 集 。hint、cmp 和 hash 的 解释 ， 请 参见 Table_ne 





void Set_put(T set, const void *member ) 

如 有 必要 ， 将 member 添 加 到 set 中 。 
void *Set_remove(T set, const void *member ) 

如 果 member 为 set 的 成 员 ， 则 将 member 从 set 中 删除 ， 并 返回 删除 的 成 员 ， 
Set_remove 返 回 NULL。 








void **Set_toArray(T set, void *end) 
创建 一 个 N+1 个 元 素 的 数组 ， 将 set 的 N 个 成 员 以 未 指定 的 顺序 复制 到 数组 中 ， 
数组 第 一 个 元 素 的 指针 。 数 组 的 元 素 N 为 end。 

T Set_union(T s, T t) 
返回 S 和 t 的 并 集 SUt: 其 成 员 出 现在 s 或 t 中 。 已 检查 的 运行 时 错误 ， 请 参见 S 























A.19 Stack 


T 是 不 透明 的 Stack_T 





向 任何 Stack 函 数 传递 的 T 值 为 NULL， 则 为 已 检查 的 运行 时 错误 。 


int Stack_empty(T stk) 
如 果 Sstk 为 空 ， 则 返回 1， 和 否则 返回 0。 
void Stack_free(T *stk) 
释放 *stk 并 将 其 清 零 。 如 果 stk 或 *stk 为 NULL， 则 为 已 检查 的 运行 时 错误 。 
T Stack_new(void) M 
芭 回 一 个 新 的 空 栈 T。 
void *Stack_pop(T stk) 
弹出 并 返回 stk 的 栈 顶 元 素 。 如 果 Sstk 为 空 ， 则 为 已 检查 的 运行 时 错误 。 
void Stack_push(T stk, void *x) M 
将 x 推 入 stk 栈 中 。 











A.20 Str 


Stree AR EO BSA. PEAS EAC, 2S pik 
说 ，"STRING" 字 符 串 中 的 位 置 如 下 : 


5SsT_4R_3I2N-G。 
任何 两 个 位 置 都 可 以 按 任意 顺序 给 出 。 创 建 字符 串 的 St 函数 会 为 其 结果 
分 配 空间 。 在 下 文 的 描述 中 ，s[ij] 表 示 s 中 位 置 ; 和 j 之 间 的 子 串 。 向 任何 


Str 函 数 传 递 的 位 置 不 存在 或 字符 指针 为 NULL， 均 为 已 检查 的 运行 时 错 
误 〈Str_catv 和 Str_map 函 数 指 明 的 情形 除外 ) 。 











int Str_any(const char *s, int i, const char *set) 
如 果 s[i:i+1] 字 符 出 现在 set 中 ， 则 返回 s 中 该 字符 之 后 的 正 数位 置 ， 否 则 返 
set=NULL， 则 为 已 检查 的 运行 时 错误 。 

char *Str_cat(const char *s1, int i1, int ji, 
const char *s2, int 12, int j2) 


返回 s1[i1: j1] 连 接 s2 [i2: j2] 的 结果 。 








char *Str_catv(const char *s, ...) 

返回 一 个 由 参数 可 变 部 分 的 各 个 三 元 组 组 成 的 字符 串 ， 直 至 遇 到 一 个 NULL 指 针 
int Str_chr(const char *s, int i, int j, int c) 
利索 s[i:j] 中 最 左 侧 的 字符 c， 并 返回 在 s 中 该 字符 之 前 的 位 置 ， 如 果 没 有 找 3 


int Str_cmp(const char *s1, int il, int j1, 





























const char *s2, int 12, int j2) 
如 果 s1[i1:j1] <s2[i2:j2]. s4[i1: j1]=s2[i2:j2] 或 s1[i1:j1]>:t 
分 别 返 回 <06、=0、>0 的 整数 。 


char *Str_dup(const char *s, int i, int j, int n) 


串 。 如 果 n<0， 则 为 已 检查 的 运行 F 























返回 s[i:j] 的 n 个 副本 连接 形成 的 结果 字符 





int Str_find(const char *s, int i, int j, const char *str) 








void Str_fmt(int code, va_list *app, 


int put(int c, void *cl), void * 


搜索 S[i:j] 中 最 左 侧 的 子 串 Str， 并 返回 在 s 中 该 子 呈 
则 返回 0。 如 果 str=NULL， 则 为 已 检查 的 运行 时 错误 。 





GL; 


之 前 的 位 置 ， 如 果 没 有 : 





unsigned char flags[ ], int width, int precision) 





3 





这 是 一 个 Fmt 转 换 函 数 。 它 消耗 三 个 参数 : 











int Str_len(const char *s, int i, int j) 


返回 子 串 s[i:j] 的 长 度 。 





个 字符 串 和 两 个 位 置 ， 并 按 prin 





定 符 的 风格 ， 将 参数 指定 的 子 串 格式 化 。app 或 flags 是 NULL， 则 为 已 检查 的 


int Str_many(const char *s, int i, int j, const char *set) 
该 函数 从 s[i:j] 开 头 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 非 空 序列 ， 并 
序列 之 后 的 正 数位 置 ， 如 果 s[i: j] 并 非 起 始 于 set 中 某 个 字符 ， 则 返回 9。 姓 





则 为 已 检查 的 运行 时 错误 。 
char *Str_map(const char *s, int i, int 


const char *from, const char *to 


返回 根据 from 和 to 映射 s[i:j] 中 的 字符 所 得 到 的 字 


j, 
) 








AFR. Msi: j] 中 的 每 


如 果 其 出 现在 from 中 ， 则 映射 为 to 中 的 对 应 字符 。 不 出 现在 from 中 的 字符 映 ! 
如 果 from 和 to 均 为 NULL， 则 使 用 此 前 设 定 的 from 和 to 值 。 如 果 s=NULL， 则 
和 to 建立 了 一 个 默认 映射 。 如 果 from 和 to 中 仅 有 二 者 之 一 为 NULL, 或 strle 
xstrlen(to)， 或 s、from、to 均 为 NULL， 或 第 一 次 调用 该 函数 时 from 和 ft 











则 造成 已 检查 的 运行 时 错误 。 








int Str_match(const char *s, int i, int j, const char *str) 


如 果 s[i:j] 以 str 开 头 ， 则 返回 s 中 Str 子 虽 





则 为 已 检查 的 运行 时 错误 。 


之 后 的 位 


， 和 否则 返回 9。 如果 S1 








int Str_pos(const char *s, int i) 
返回 对 应 于 的 正 数位 置 ， 从 该 值 减 去 1， 即 可 得 到 字符 s[i:i+1] 的 索引 值 。 
int Str_rchr(const char *s, int i, int j, int c) 
是 Str_chr 的 变 体 ， 只 是 从 右 侧 开始 搜索 。 
char *Str_reverse(const char *s, int i, int j) 
返回 s[i:j] 的 一 个 副本 ,但 其 中 的 各 个 字符 已 经 逆转 为 相反 的 方向 。 
int Str_rfind(const char *s, int i, int j, const char *str) 
Str_find 的 变 体 ， 只 是 从 右 侧 开始 搜索 。 
int Str_rmany(const char *s, int i, int j, const char *set) 
该 函数 从 结尾 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 非 空 序列 ， 并 返回 s 中 
序列 之 前 的 正 数位 置 ， 如 果 s[i: j] 并 非 结束 于 set 中 某 个 字符 ， 则 返回 9。 姑 
则 为 已 检查 的 运行 时 错误 。 


int Str_rmatch(const char *s, int i, int j, 















































const char *str) 
如 果 s[i:j] 结 束 于 str， 则 返回 s 中 子囊 str 之 前 的 正 数位 置 ， 否 则 返回 0。 好 
NULL， 则 为 已 检查 的 运行 时 错误 。 

int Str_rupto(const char *s, int i, int j, const char *set) 
Str_upto 的 变 体 ， 从 右 侧 开 始 搜索 。 

char *Str_sub(const char *s, int i, int j) 
返回 s[i:j]。 

int Str_upto(const char *s, int i, int j, const char *set) 
从 s[i:j] 左 侧 开始 搜索 set 中 任意 字符 ， 并 返回 s 中 该 字符 之 前 的 位 置 ， 如 果 : 

含 set 中 任意 字符 ， 则 返回 9。 如 果 set=NULL， 则 为 已 检查 的 运行 时 错误 。 




















A.21 Table 


T 是 不 透明 的 Table_T 





各 任何 Table 函 数 传递 的 T 值 或 key 为 NULL， 均 为 已 检查 的 运行 时 错 

误 。 
void Table free(T *table) 

释放 *table 并 将 其 清 零 。 如 果 table 或 *table 是 NULL， 则 是 已 检查 的 运行 让 
void *Table_get(T table, const void *key) 

返回 table 中 与 key 关 联 的 值 ， 如 果 table 并 不 包含 key， 则 返回 NULL。 
int Table_length(T table) 

返回 table 中 键 - 值 对 的 数目 。 
void Table map(T table, 





void apply(const void *key, void **value, void *cl), 

void *cl) 

按 未 指定 的 的 顺序 ， 对 table 中 每 个 键 - 值 调 用 apply (key, &value, cl) 
修改 table， 则 造成 已 检查 的 运行 时 错误 。 


T Table_new(int hint, Mem_Failed 








int cmp(const void *x, const void *y), 

unsigned hash(const void *key) ) 

创建 、 初 始 化 并 返回 一 个 新 的 空 表 ， 可 以 包含 任意 数目 的 键 - 值 对 。hint 是 对 : 
键 - 值 对 数目 的 估计 。 如 果 hint<9， 则 为 已 检查 的 运行 时 错误 。cmp 和 hash 是 
散 列 键 的 函数 。 对 于 键 x 和 y， 如 果 x<y、x=y、x>y， 那 么 cmp (xXx，y ) 必 须 返 | 
的 一 个 jnt。 如 果 cmp (x，y) 返 回 零 ，hash(x) 必 须 等 于 hash(y)。 如 果 cmp 
hash=NULL，Table_new 将 使 用 Atom_T 键 的 对 应 函数 。 























void *Table_put(T table, 
const void *key, void *value) 
将 table 中 与 key 关 联 的 值 改 为 value， 并 返回 此 前 与 key 关 联 的 值 ， 如 果 tatk 
包含 key， 则 向 table 添 加 key 和 value， 并 返回 NULL。 

void *Table_remove(T table, const void *key) 
从 table 中 删除 键 - 值 对 并 返回 被 删除 的 值 。 如 果 table 并 不 包含 key， 则 Tab 
没有 效果 ， 返 回 NULL。 

void **Table_toArray(T table, void *end) 
创建 一 个 2N+1 个 元 素 的 数组 ， 将 table 中 的 N 个 键 - 值 对 按 未 指定 的 顺序 复制 至 
并 返回 指向 数组 第 一 个 元 素 的 指针 。 键 出 现在 偶数 编号 的 数组 元 素 中 ， 而 对 应 | 
数 编号 的 数组 元 素 中 。 元 素 2N 为 end。 












































A.22 ‘Text 


TEU NText_T 


typedef struct T { int len; const char *str; } T; 


typedef struct Text_save_T *Text_save_T; 


T 是 一 个 描述 符 ， 客 户 程序 可 以 读 取 描 述 符 的 字段 ， 但 向 描述 符 的 字段 
写 入 数据 则 是 未 检查 的 运行 时 错误 。Text 函 数 可 以 核 值 接受 并 返回 描述 
符 ， 向 任何 Text 函 数 传递 的 描述 符 ， 如 果 其 字段 str=NULL 或 len<0， 则 

为 已 检查 的 运行 时 错误 。 








Text 为 其 提供 的 不 可 变 的 字符 串 管 理 内 存 ， 回 串 空 间 写 入 数据 ， 或 
通过 外 部 手段 释放 其 中 的 内 存 ， 均 为 未 检查 的 运行 时 错误 。 串 空间 中 的 
字符 串 可 以 包含 0 字符 ， 因 此 其 中 的 字符 串 不 是 以 0 字符 结尾 的 。 








一 些 Text 函 数 可 以 接受 位 置 作 为 参数 ， 位 置 标识 了 字符 之 间 的 点 ， 
参见 Str 接 口 。 在 下 文 的 描述 中 ，s[i: jj 表示 s 中 位 置 i 和 和 j 之 间 的 子 串 。 





const T Text_cset = { 256, " \OO00\001...\376\377" } 

const T Text_ascii = { 128, " \O000\001...\176\177" } 

const T Text_ucase = { 26, "ABCDEFGHIJKLMNOPQRSTUVWXYZ" } 
const T Text_lease = { 26, "abedefhijklmnopgrtuvwxyz" } 
const T Text_digits = { 10, "0123456789" } 

const T Text_null = { 0，””} 














上 述 是 一 些 已 经 初始 化 的 静态 描述 符 。 


int Text_any(T s, int i, T set) 














如 果 s[I:i+1] 字 符 出 现在 set 中 ， 


则 返回 s 中 该 字符 之 后 的 正 数位 置 ， 否 则 返 


T Text_box(const char *str, int len) 


为 客户 程序 分 配 的 长 度 len 的 字符 











串 str， 建 立 并 返回 一 个 描述 符 。 如 果 str=i 

















len<0， 则 为 已 检查 的 运行 时 错误 。 


T Text_cat(T s1, T s2) 
返回 s1 连 接 s2 得 到 的 字符 


uo 








o 


Me 


int Text_chr(T s, int i, int j, int c) 


参见 Str_chr。 
int Text_cmp(T si, T s2) 
如 果 s1<s2、s1 = s2、s1>s2， 


T Text_dup(T s, int n) 








分 别 返回 <0、=0、>0 的 int。 


Me 


返回 s 的 n 个 副本 连接 形成 的 字符 串 。 如 果 n<9， 则 为 已 检查 的 运行 时 错误 。 

















int Text_find(T s, int i, int j, 
参见 Str_find。 
void Text_fmt(int code, va_list * 


int put(int c, void *cl), 


T str) 


app, 


void *cl, 


unsigned char flags[], int width, int precision) 

















这 是 一 个 Fmt 转 换 函 数 。 它 消耗 一 个 指向 描述 符 的 指针 ， 并 按 printf 的 %s 限 先 
格式 化 该 字符 串 。 描 述 符 指针 、app 或 flags 是 NULL， 则 造成 已 检查 的 运行 时 


char *Text_get(char *str, int size, T s) 




















s.str[O..str.len - 1]#4 





有 到 str[0.,. size - 1]， 追 加 一 个 0 字符 


如 果 str=NULL，Text_get 将 为 其 分 配 空 间 。 如 果 strznull 且 size<s.1len 


己 检 查 的 运行 时 错误 。 
int Text_many(T s, int i, int j, 


参见 Str_many。 


T set) 


T Text_map(T s, const T * from, const T *to) 


返回 根据 from 和 to 映射 s 中 的 字符 所 得 到 的 字符 串 ， 参 见 Str_map。 如 果 fro 





dS 





均 为 NULL， 则 使 用 此 前 设 定 的 from 和 to 值 。 如 果 只 有 from 和 to 二 者 之 一 为 N 
from->len# to->len， 则 为 已 检查 的 运行 时 错误 。 





int Text_match(T s, int i, int j, T str) 
参见 Str_match。 
int Text_pos(T s, int i) 
参见 Str_pos。 
T Text_put(const char *str) 
将 9 结尾 字符 串 str 复 制 到 串 空间 中 ， 并 返回 其 描述 符 。 如 果 str=NULL， 则 为 


int Text_rchr(T s, int i, int j, int c) 





























参见 Str_rchr。 

void Text_restore(Text_save_T *save) 
释放 save 创 建 以 来 分 配 的 那 部 分 串 空间 。 如 果 save=NULL， 则 为 已 检查 的 运 和 
如 果 在 调用 Text_restore 之 后 ， 使 用 表示 高 于 save 位 置 的 其 他 Text_save. 
未 检查 的 运行 时 错误 。 

T Text—reverse(T s) 
返回 s 的 一 个 副本 ， 其 中 的 各 个 字符 已 经 反 向 。 


int Text_rfind(T s, int i, int j, T str) 


























参见 Str_rfind。 
int Text_rmany(T s, int i, int j, T set) 

参见 Str_rmany。 
int Text_rmatch(T s, int i, int j, T str) 

参见 Str_rmatch。 
int Text_rupto(T s, int i, int j, T set) 

参见 Str_rupto。 
Text_save_T Text_save(void) 

回 一 个 不 透明 指针 ， 其 编码 了 当前 串 空间 顶部 的 位 置 。 

T Text_sub(T s, int i, int j) 








返回 s[i:j]。 
int Text_upto(T s, int i, int j, T set) 


参见 Str_upto。 


A.23 Thread 


I 是 不 透明 的 Thread_T 





在 调用 Thread init 之 前 调用 任何 Thread 函 数 ， 均 为 已 检查 的 运行 时 
错误 。 


void Thread_alert(T t) 
设置 t 的 警报 - 待 决 标志 ， 并 使 + 变 为 可 运行 状态 。 下 一 次 t+ 运行 时 ， 或 调用 一 个 
































导致 阻塞 的 Thread、Sem 或 Chan 原 语 时 ， 线 程 将 清除 其 警报 - 待 决 标志 ， 并 引 
Thread _ Alerted 异 常 。 如 果 t=NULL， 或 t 引 用 了 一 个 不 存在 的 线程 ， 则 为 E 
行 时 错误 。 


void Thread_exit(int code) 
结束 调用 线程 ， 并 将 code 传 递 给 任何 等 待 调 用 线程 结束 的 线程 。 当 最 后 一 个 线 
Thread_exit 时 ， 程 序 将 通过 调用 exit(code ) 结 束 。 











int Thread_init(int preempt, ...) 
为 非 抢占 调度 (preempt=0) 或 抢占 调度 (preempt=1) 初 始 化 Thread， 并 返 [ 
或 0 (如 果 preempt=1 但 不 文 持 抢 占 调度 ) 。Thread_init 可 能 接受 人 额外 的 生 

定义 的 参数 ， 可 变 参 数列 表 必 须 结束 于 一 个 NULL 指 针 。 调 用 Thread_init 多 ; 
己 检查 的 运行 时 错误 。 

int Thread_join(T t) 
挂 起 调用 线程 ， 直 至 线程 t 结 束 。 在 t 结 束 时 ，Thread_join 返 回 t 的 退出 代 古 
=NULL， 调 用 线程 将 等 待 所 有 其 他 线程 结束 ， 然 后 返回 9。 如 果 t 指 定 的 线程 即 
自身 ， 或 有 多 个 线程 癌 该 函数 传递 了 NULL 参 数 ， 则 为 已 检查 的 运行 时 错误 。 

T Thread_new(int apply(void *), 
































void *args, int nbytes, ...) 





创建 、 初 始 化 并 启动 一 个 新 线程 ， 并 返回 其 句柄 。 如 果 nbytes=0， 新 线程 将 # 
Thread_exit(apply(args))， 否 则 ， 它 执行 Thread_exit(apply(p))， 
始 于 args、 长 度 为 nbytes 的 内 存 块 的 一 个 副本 











。 新 线程 启动 时 ， 自 身 的 异常 栈 为 空 。 
Thread_new 可 能 接受 额外 的 由 具体 实现 定义 参数 ， 可 变 参 数列 表 必 须 结束 于 - 


针 。 如 果 app1Ly=NULL， 或 args=NULL 且 nbytes<90， 则 为 已 检查 的 运行 时 错 














void Thread_pause(void) 

放弃 处 理 器 给 另 一 个 线程 ， 也 可 能 是 调用 线程 自身 。 
T Thread_self (void) 

返回 调用 线程 的 句柄 。 























A.24 XP 


TE) AXP_T 


typedef unsigned char *T; 


基数 23 下 的 一 个 扩展 精度 无 符号 整数 ， 可 以 表示 为 一 个 数组 ， 包 括 
n 个 数位 ， 最 低 有 效 数位 在 先 。 大 多 数 XP 函 数 将 n 作 为 一 个 参数 ， 与 源 
和 目标 I 实例 一 同 传递 ， 如 果 n<1 或 n 不 等 于 对 应 T 实 例 的 长 度 ， 则 为 未 
检查 的 运行 时 错误 。 问 任何 XP 函数 传递 的 T 值 为 NULL 或 太 小 ， 均 为 未 
检查 的 运行 时 错误 。 


int XP_add(int n, Tz, T x, T y, int carry) 

将 z[0.,n - 1] 设 置 为 x+y+carry， 并 返回 z[n - 1] 数 位 上 的 进位 输出 。c 
int XP_cmp(int n, T x, T y) 

对 于 Xx<y、Xx=y、Xx>y， 分 别 返 回 <0、=0、>0 的 整数 。 
int XP_diff(int n, T z, T x, int y) 

将 z[0..n - 1] 设 置 为 x - y， 其 中 y 只 有 单个 数位 ， 并 返回 z[n - 1] 数 位 - 


如 果 y>28 





， 则 为 未 检查 的 运行 时 错误 。 

int XP_div(int n, Tq, T x, int m, T y, Tr, T tmp) 
将 q[0.,n - 1] 设 置 为 x[0..n - 1] /y[O..m - 1], Br[O..m - 1]% 
-1] mod y[O..m - 1], WRyzo, Wgl. WRy=0, XP_diviklzlo, H 


q 和 r。tmp 必 须 能 够 容纳 至 少 nt+m+2 个 数位 。q 或 r 与 X 和 y 中 之 一 相同 、q 和 Tr 其 
一 XP_T 实 例 、tmp 能 够 容纳 的 数位 太 少 ， 都 是 未 检查 的 运行 时 错误 。 


unsigned long XP_fromint(int n, T z, unsigned long u) 





将 z[0..n - 1] 设 置 为 u mod 28" 


并 返回 u/28n 


int XP_fromstr(int n, T z, const char *str, 
int base, char **end) 
将 str 解释 为 base 基 数 下 的 一 个 无 符号 整数 ， 使 用 z[0. .n - 1] 作 为 转换 过 下 
值 ， 并 返回 转换 步骤 中 第 一 个 非 零 的 进位 输出 。 如 果 endznu11， 将 *end 设 置 
中 导致 扫描 结束 的 字符 或 产生 第 一 个 非 零 进位 的 字符 。 参 见 AP_fromstr。 
int XP_length(int n, T x) 
返回 x 的 长 度 ， 即 ， 它 返回 x[0. .n - 1] 中 最 高 非 零 数 位 的 索引 加 1。 
void XP_lshift(int n, T z, int m, T x, int s, int fill) 
将 z[0.,n- 1] 设 置 为 X[0. .m- 1] 左 移 s 个 比特 位 的 结果 ， 空 出 的 比特 位 用 下 
fill 必 须 为 9 或 1。 如 果 s<9， 则 为 未 检查 的 运行 时 错误 。 


int XP_mul (T z, int n, T x, int m, T y) 















































将 x[0..n - 1] *y[O..m -1] 的 结果 加 到 z[6..n+m - 1]， 并 返回 z[n+r 
的 进位 输出 。 如 果 z=0，XP_mul 计 算 了 乘积 x * y。 如 果 z 与 x 或 y 中 之 一 为 同 
例 ， 则 为 未 检查 的 运行 时 错误 。 





int XP_neg(int n, T z, T x, int carry) 
%z[O..n - 1] 设 置 为 一 x+carry， 其 中 carry 为 09 或 1， 并 返回 z[n - 1]ž 
int XP_product(int n, T z, T x, int y) 
将 z[0..n - 1] 设 置 为 x * y， 其 中 y 只 有 单个 数位 ， 并 返回 z[n - 1] 数 位 
出 。 如 果 y>28 





， 则 为 未 检查 的 运行 时 错误 。 
int XP_quotient(int n, T z, T x, int y) 


将 z[0.,.n - 1] 设 置 为 XXMy， 其 中 y 是 单个 数位 ， 并 返回 Xx mod y。 如 果 y=01 


则 为 未 检查 的 运行 时 错误 。 
void XP_rshift(int n, T z, int m, T x, int s, int fill) 
右 移 ， 参 见 XP_1shift。 如 果 n>m， 空 出 的 比特 位 用 fi11 填 充 。 
int XP_sub(int n, T z, T x, T y, int borrow) 
将 z[0..n - 1] 设 置 为 x - y - borrow， 并 返回 z[n - 1] 数 位 上 的 借 位 。 
int XP_sum(int n, T z, T x, int y) 
将 z[0..n - 1] 设 置 为 x+ty， 其 中 y 只 有 单个 数位 ， 并 返回 z[n - 1] 数 位 上 
出 。 如 果 y>28 





， 则 为 未 检查 的 运行 时 错误 。 

unsigned long XP_toint(int n, T x) 
返回 x mod (ULONG_MAX+1). 

char *XP_tostr(char *str, int size, int base, int n, T x) 
用 x 在 base 基 数 下 的 字符 表示 填充 str[9. .size- 1]， 将 x 设置 为 0，， 并 返回 
果 str=NULL， 或 size 太 小 ， 或 base<2 或 base>36， 均 为 已 检查 的 运行 时 错 ; 





[1] 译文 并 未 使 用 上 述 缩写 。 一 一 译 者 注 





[2] 即 字符 数目 ， 不 包含 结尾 0 字符 。 译 者 注 
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